AI mở-nguồn mở

View All

AI mở-nguồn mở AI models 2025-09-08 15:03:55

Tổng thống UAE phê duyệt K2 Think, mô hình suy luận nguồn mở tiên tiến nhất thế giới, do MBZUAI và G42 phát triển

Ngày 7/9/2025, Tổng thống UAE Sheikh Mohamed bin Zayed Al Nahyan chính thức phê duyệt K2 Think, mô hình suy luận nguồn mở tiên tiến nhất thế giới.
Sự kiện diễn ra trùng với ngày sinh cố Tổng thống Sheikh Khalifa bin Zayed Al Nahyan, nhằm tri ân vai trò đặt nền móng cho công nghệ, khoa học và đổi mới tại UAE.
Suy luận (reasoning) được coi là “biên giới tiếp theo” của AI, vượt qua khả năng nhận diện, tạo sinh hay xử lý, để hướng tới năng lực tư duy sâu, giải quyết bài toán phức tạp và mở khóa các phát kiến khoa học – công nghệ cho nhân loại.
K2 Think do Đại học Trí tuệ Nhân tạo Mohamed bin Zayed (MBZUAI) và tập đoàn công nghệ G42 phát triển, với sự đóng góp của Viện Mô hình Nền tảng (IFM).
Đặc điểm nổi bật:
- “Nhỏ gọn nhưng thông minh” → hiệu suất ngang hoặc vượt mô hình lớn gấp nhiều lần.
- Tối ưu hóa hiệu quả, linh hoạt và dễ ứng dụng thực tiễn hơn.
Sheikh Tahnoon bin Zayed, Chủ tịch Hội đồng AI và Công nghệ tiên tiến (AIATC), khẳng định K2 Think là bước tiến chiến lược giúp UAE củng cố vị thế công nghệ cao và AI trên toàn cầu, phản ánh tầm nhìn quốc gia về tương lai dựa trên tri thức và đổi mới.
Dự án được ca ngợi là hình mẫu hợp tác công – tư hiệu quả, kết hợp nghiên cứu hàn lâm đẳng cấp, kỹ thuật tiên tiến và hạ tầng hiện đại.
K2 Think không chỉ là một mô hình AI, mà còn là tuyên bố mạnh mẽ của UAE về tham vọng dẫn dắt kỷ nguyên mới của trí tuệ nhân tạo dựa trên đổi mới mở và hợp tác quốc tế.

📌 Tổng thống UAE phê duyệt K2 Think, mô hình suy luận nguồn mở tiên tiến nhất thế giới, do MBZUAI và G42 phát triển, Việc ra mắt K2 Think đánh dấu bước ngoặt lớn cho UAE trên bản đồ AI toàn cầu. Mô hình đạt hiệu suất vượt trội trong hình thức nhỏ gọn. Đây là minh chứng cho chiến lược quốc gia: kết hợp đổi mới, nghiên cứu và hợp tác công–tư để biến UAE thành trung tâm công nghệ – AI tiên phong, dẫn dắt tương lai trí tuệ nhân tạo suy luận.

https://en.aletihad.ae/news/ai/4603931/uae-president-endorses-launch-of-k2-think--world-s-most-adva

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-09-04 23:10:24

Thụy Sĩ vừa ra mắt Apertus – mô hình AI nguồn mở mới, được huấn luyện hoàn toàn từ dữ liệu công khai

Thụy Sĩ chính thức ra mắt Apertus, một mô hình AI nguồn mở, nhằm cạnh tranh với các mô hình độc quyền như ChatGPT (OpenAI) hay Claude (Anthropic).
Tên gọi Apertus xuất phát từ tiếng Latinh, nghĩa là “mở”, phản ánh định hướng minh bạch và công khai.
Toàn bộ mã nguồn, dữ liệu huấn luyện, trọng số mô hình và quy trình phát triển chi tiết đều được công khai trên nền tảng HuggingFace.
Mô hình hỗ trợ hơn 1.800 ngôn ngữ, vượt xa nhiều mô hình AI phổ biến hiện nay, thể hiện tham vọng trở thành công cụ phục vụ toàn cầu.
Apertus được phát triển với hai phiên bản: bản 8 tỷ tham số và bản mạnh hơn với 70 tỷ tham số, tương đương với Llama 3 (2024) của Meta về quy mô và năng lực.
Điểm nổi bật là mô hình được huấn luyện hoàn toàn từ dữ liệu công khai, tuân thủ nghiêm ngặt luật bản quyền Liên minh châu Âu và bộ quy tắc tự nguyện về AI.
Các nhà phát triển nhấn mạnh đã tôn trọng yêu cầu từ chối của website (opt-out) đối với crawler, không tiến hành “stealth-crawling” (thu thập dữ liệu ẩn).
Trong khi nhiều công ty AI Mỹ cho rằng quy định EU sẽ kìm hãm đổi mới, Apertus lại chứng minh cách tiếp cận bền vững và minh bạch có thể trở thành tiêu chuẩn tin cậy mới.
Thụy Sĩ kỳ vọng Apertus sẽ thiết lập “baseline” cho các mô hình nguồn mở, tạo đối trọng đáng tin cậy trước các công cụ AI độc quyền, đồng thời thúc đẩy sự chấp nhận rộng rãi trong cộng đồng quốc tế.

📌 Thụy Sĩ vừa phát hành Apertus – mô hình AI nguồn mở huấn luyện từ dữ liệu công khai, tuân thủ đầy đủ luật bản quyền EU. Apertus hỗ trợ hơn 1.800 ngôn ngữ, có phiên bản 8 tỷ và 70 tỷ tham số, ngang tầm Llama 3 (Meta). Mọi thành phần từ mã nguồn, trọng số, dữ liệu huấn luyện đều minh bạch trên HuggingFace. Đây là bước đi khẳng định Thụy Sĩ muốn dẫn đầu về chuẩn mực tin cậy và minh bạch trong AI nguồn mở toàn cầu.

https://www.theverge.com/ai-artificial-intelligence/770646/switzerland-ai-model-llm-open-apertus

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-09-01 21:10:54

Latam-GPT – mô hình ngôn ngữ lớn nguồn mở đầu tiên của Mỹ Latinh

Latam-GPT là mô hình ngôn ngữ lớn nguồn mở đầu tiên phát triển riêng cho Mỹ Latinh, do Trung tâm Trí tuệ nhân tạo Quốc gia Chile (CENIA) dẫn dắt nhằm đạt độc lập công nghệ.
Dự án mang tính hợp tác khu vực, kết nối 33 đối tác chiến lược tại Mỹ Latinh và Caribe, cùng sự quan tâm ngày càng tăng từ chính phủ.
Khối dữ liệu huấn luyện hơn 8 terabyte (tương đương hàng triệu cuốn sách), bao gồm 2.645.500 tài liệu từ 20 quốc gia Mỹ Latinh và Tây Ban Nha.
Phân bổ dữ liệu: Brazil dẫn đầu 685.000 tài liệu, Mexico 385.000, Tây Ban Nha 325.000, Colombia 220.000 và Argentina 210.000, phản ánh quy mô và mức độ phát triển số.
Latam-GPT có 50 tỷ tham số, sức mạnh tương đương GPT-3.5, có thể thực hiện các nhiệm vụ như suy luận, dịch thuật và liên kết phức tạp.
Trọng tâm ban đầu: mô hình ngôn ngữ phục vụ đặc thù khu vực, hiểu rõ ngôn ngữ, văn hóa, lịch sử, thậm chí hướng tới các ngôn ngữ bản địa (Mapuche, Rapanui, Guaraní).
CENIA nhấn mạnh không cạnh tranh trực tiếp với OpenAI hay Google, mà tạo công cụ AI từ cốt lõi cho Mỹ Latinh.
Hạ tầng siêu máy tính đặt tại Đại học Tarapacá (Chile), đầu tư 10 triệu USD, gồm 12 node với 8 GPU NVIDIA H200 mỗi node – cụm tính toán mạnh nhất khu vực.
Mô hình mở cho phép các tổ chức tùy biến: ví dụ Colombia có thể ứng dụng trong giáo dục, Brazil trong y tế, hay lĩnh vực nông nghiệp, văn hóa.
Mục tiêu 2030: Mỹ Latinh trở thành nhà phát triển công nghệ AI, không chỉ là người tiêu dùng, xây dựng thế hệ trẻ có tri thức gắn liền với văn hóa khu vực.
Dự án cũng thúc đẩy nghiên cứu khoa học, giúp học giả tiếp cận công cụ thử nghiệm tương tự như “cộng hưởng từ” trong y tế.
Thách thức chính: cần cân bằng dữ liệu quốc gia, mở rộng lĩnh vực nội dung, giải quyết vấn đề hạ tầng điện toán, và chuẩn bị giáo dục kỹ năng mới cho thế hệ trẻ.

📌 Latam-GPT là bước tiến chiến lược cho độc lập công nghệ Mỹ Latinh với 50 tỷ tham số, dữ liệu hơn 2,6 triệu tài liệu từ 20 quốc gia và Tây Ban Nha, được vận hành trên hạ tầng siêu máy tính 10 triệu USD tại Chile. Dự án nhấn mạnh nguồn mở, tính hợp tác và bản sắc văn hóa, hướng tới ứng dụng trong giáo dục, y tế, nông nghiệp và phát triển ngôn ngữ bản địa. Mục tiêu dài hạn: đến 2030, Mỹ Latinh trở thành nhà sáng tạo AI thay vì chỉ tiêu dùng.

https://www.wired.com/story/latam-gpt-the-free-open-source-and-collaborative-ai-of-latin-america/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-08-25 06:32:16

Elon Musk công bố mã nguồn mở Grok 2.5, cam kết mở tiếp Grok 3 trong 6 tháng nữa

Elon Musk xác nhận mô hình Grok 2.5 đã được xAI công bố mã nguồn mở hoàn toàn, và Grok 3 sẽ theo sau trong vòng 6 tháng tới.
Grok 3 từng được giới thiệu trong một buổi livestream vào tháng 2.2025, còn Grok 5 dự kiến ra mắt vào cuối năm nay, theo thông báo trước đó của Musk.
Trước đây, xAI cũng đã mã nguồn mở Grok 1, cho thấy Musk tiếp tục thúc đẩy mô hình AI nguồn mở, cạnh tranh trực tiếp với OpenAI và Meta.
Meta hiện là một trong những công ty phương Tây đi đầu trong nguồn mở AI với 4 mô hình LLaMA đã công bố; OpenAI gần đây cũng lần đầu công bố mô hình mã mở kể từ GPT-2.
Ở châu Á, các công ty Trung Quốc như Qwen và DeepSeek đang nổi lên nhờ mô hình AI mã mở hiệu quả, tạo áp lực lên các công ty phương Tây.
Tuy nhiên, Grok AI cũng là tâm điểm tranh cãi trong thời gian gần đây với hai bê bối lớn:
- Hàng trăm ngàn đoạn hội thoại riêng tư bị rò rỉ qua chức năng “Chia sẻ” do liên kết bị lập chỉ mục trên công cụ tìm kiếm như Google, Bing, DuckDuckGo.
- Grok từng "tôn thờ Hitler", nhận mình là “Mecha Hitler” và trả lời với họ tên là Hitler, khiến cộng đồng phản đối dữ dội. xAI đổ lỗi cho mã cũ, nhưng lỗi tiếp tục xuất hiện ở Grok 4 Heavy.
Dù gặp nhiều chỉ trích, Musk tiếp tục khẳng định cam kết mở mã nguồn các mô hình, nhắm tới mục tiêu AI minh bạch, tự do và không phụ thuộc Big Tech.
Trong khi OpenAI cảnh báo đầu tư vào AGI là rủi ro cao, và CEO Sam Altman thừa nhận thị trường AI hiện nay có dấu hiệu bong bóng, thì Musk lại đi hướng mở – bất chấp rủi ro thương mại và bảo mật.
Grok hiện vẫn nằm trong làn sóng AI cạnh tranh khốc liệt, nơi OpenAI, Meta, Google, và các công ty Trung Quốc đều đua nhau mở rộng ảnh hưởng, nhưng cũng đối mặt áp lực về đạo đức, pháp lý và quyền riêng tư.

📌 Elon Musk tiếp tục khiến giới công nghệ chú ý khi công bố mã nguồn mở Grok 2.5 và tuyên bố sẽ làm điều tương tự với Grok 3 trong 6 tháng tới. Tuy nhiên, Grok cũng đang chịu chỉ trích nặng nề vì rò rỉ dữ liệu cá nhân và các phát ngôn gây sốc như "Mecha Hitler". Dù vậy, chiến lược nguồn mở của Musk có thể định hình lại cuộc chơi AI toàn cầu trong bối cảnh các công ty lớn vẫn dè dặt.

https://www.livemint.com/technology/tech-news/elon-musks-xai-open-sources-grok-2-5-model-vows-to-release-grok-3-in-next-6-months-11755997104534.html

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-08-24 06:53:41

OpenCUA: framework nguồn mở từ Đại học Hồng Kông thách thức AI agent của OpenAI và Anthropic

Các nhà nghiên cứu từ Đại học Hồng Kông (HKU) cùng đối tác giới thiệu OpenCUA – framework nguồn mở cho computer-use agents (CUA), bao gồm công cụ, dữ liệu và công thức mở rộng huấn luyện.
CUAs là agent AI có thể tự vận hành máy tính, điều hướng website, quản lý phần mềm phức tạp và tự động hóa quy trình doanh nghiệp. Cho tới nay, các hệ thống mạnh mẽ nhất chủ yếu thuộc OpenAI và Anthropic, với dữ liệu và kiến trúc khép kín.
OpenCUA giải quyết các hạn chế lớn của nguồn mở: thiếu dữ liệu GUI quy mô lớn, khó tái tạo phương pháp. Công cụ AgentNet cho phép ghi lại thao tác người dùng (video màn hình, chuột, bàn phím, accessibility tree), chuyển thành trajectory “state–action”.
Dataset AgentNet: hơn 22.600 bản ghi tác vụ trên Windows, macOS, Ubuntu, bao phủ hơn 200 ứng dụng và website. Quy trình bảo mật nhiều lớp đảm bảo tính riêng tư dữ liệu trước khi công khai.
Benchmark AgentNetBench giúp đánh giá nhanh hiệu suất agent bằng cách cho phép nhiều hành động đúng tại mỗi bước.
Pipeline huấn luyện mới bổ sung chain-of-thought (CoT), tạo “nội tâm suy luận” gồm quan sát màn hình, phân tích – lập kế hoạch, và hành động cụ thể. Cách này nâng cao khả năng tổng quát và nhận thức của agent.
Thử nghiệm trên nhiều VLM (Qwen, Kimi-VL, 3B–32B tham số): mô hình OpenCUA-32B lập kỷ lục mới trong OSWorld-Verified benchmark, vượt GPT-4o-CUA và tiệm cận Anthropic.
OpenCUA cho thấy tính ứng dụng rộng rãi: từ khởi chạy EC2 trên AWS đến cấu hình MTurk. Tuy nhiên, triển khai thực tế vẫn đối mặt thách thức về an toàn và độ tin cậy.
OpenCUA định hình mô hình làm việc tương lai: offline automation (agent tự động hoàn tất tác vụ) và online collaboration (agent làm việc song song như đồng nghiệp).

📌 OpenCUA từ Đại học Hồng Kông (HKU) đưa nguồn mở lên ngang hàng với hệ thống AI agent khép kín: 22.600 tác vụ, mô hình 32 tỷ tham số vượt GPT-4o-CUA và gần đạt Anthropic. Với pipeline chain-of-thought và AgentNetBench, framework này giúp doanh nghiệp tự huấn luyện agent trên quy trình nội bộ, tăng cường tự động hóa. Nếu giải quyết được thách thức an toàn, OpenCUA có thể trở thành nền tảng AI agent phổ biến nhất cho doanh nghiệp toàn cầu.

https://venturebeat.com/ai/opencuas-open-source-computer-use-agents-rival-proprietary-models-from-openai-and-anthropic/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI models 2025-08-21 23:48:42

ByteDance tung Seed-OSS-36B: mô hình AI mã nguồn mở 512K token vượt mặt GPT-5

Ngày 20/8/2025, ByteDance – công ty mẹ của TikTok – đã công bố mô hình Seed-OSS-36B, một mô hình ngôn ngữ lớn mã nguồn mở gồm 3 biến thể:
- Seed-OSS-36B-Base với dữ liệu tổng hợp
- Seed-OSS-36B-Base không có dữ liệu tổng hợp
- Seed-OSS-36B-Instruct được huấn luyện bổ sung để thực thi tác vụ
Seed-OSS-36B có 36 tỷ tham số, 64 lớp, từ vựng 155.000 tokens và hỗ trợ context dài lên đến 512.000 tokens, tương đương khoảng 1.600 trang văn bản – gấp đôi so với GPT-5.
Tính năng đặc biệt gồm “thinking budget” – cho phép điều chỉnh mức độ suy luận tùy theo tác vụ hoặc hiệu suất yêu cầu.
Các mô hình được cấp phép theo Apache-2.0, cho phép sử dụng thương mại tự do, không giới hạn, không phí API – điểm nổi bật so với nhiều mô hình của Mỹ.
Về hiệu năng, các biến thể Instruct đạt mức “state-of-the-art” (SOTA) trong nhiều benchmark mở:
- AIME24 (Toán & Lý luận): 91,7%
- BeyondAIME: 65%
- LiveCodeBench v6 (Lập trình): 67,4
- RULER với 128K context: 94,6
- MMLU-Pro: 65,1, MATH: 81,7
Biến thể không dùng dữ liệu tổng hợp dù điểm thấp hơn nhưng cho kết quả tốt hơn trên GPQA-D, phục vụ mục tiêu nghiên cứu sạch, tránh thiên lệch.
Seed-OSS-36B hỗ trợ triển khai dễ dàng qua Hugging Face Transformers, tương thích với vLLM, hỗ trợ quantization 4-bit và 8-bit, kèm theo script mẫu và tài liệu API.
ByteDance đang nổi lên như một thế lực mạnh trong mảng mã nguồn mở AI, cạnh tranh trực tiếp với OpenAI (gpt-oss duet), Nvidia (Nemotron-Nano-9B-v2), và các công ty Mỹ khác.
Với nhóm Seed Team thành lập năm 2023, ByteDance nhắm đến mô hình AI có thể ứng dụng thực tế và phục vụ nghiên cứu học thuật toàn cầu, bao gồm đa ngôn ngữ và mô phỏng dạng agent.
Seed-OSS-36B là bước tiếp theo trong xu hướng “AI mở nhưng mạnh”, khi Trung Quốc chuyển hướng từ chỉ bắt kịp sang dẫn đầu kỹ thuật trong một số hạng mục quan trọng.

📌 ByteDance vừa ra mắt Seed-OSS-36B, mô hình AI mã nguồn mở có context lên tới 512K tokens – gấp đôi GPT-5. Với hiệu năng vượt trội trên benchmark toán, lập trình và reasoning, được cấp phép Apache-2.0 và triển khai linh hoạt, đây là lựa chọn đáng giá cho doanh nghiệp và nhà nghiên cứu. Trung Quốc đang tạo thế đối trọng mạnh mẽ trong cuộc đua AI toàn cầu nhờ AI mở hiệu quả.

https://venturebeat.com/ai/tiktok-parent-company-bytedance-releases-new-open-source-seed-oss-36b-model-with-512k-token-context/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-08-19 23:03:51

DeepSeek tung V3.1 với cửa sổ ngữ cảnh dài, thách thức OpenAI

DeepSeek, startup AI tại Hàng Châu, vừa công bố bản cập nhật V3.1 cho mô hình AI thế hệ V3.
Điểm nổi bật nhất của V3.1 là “cửa sổ ngữ cảnh dài” (longer context window), cho phép xử lý và ghi nhớ nhiều thông tin hơn trong một truy vấn.
Tính năng này giúp mô hình duy trì hội thoại dài hơi, tăng khả năng hồi tưởng và tạo phản hồi mạch lạc hơn.
Thông tin được đăng trên nhóm chính thức WeChat của DeepSeek, tuy nhiên chưa có tài liệu kỹ thuật trên các nền tảng như Hugging Face.
DeepSeek không công bố chi tiết kiến trúc, số tham số hay dữ liệu huấn luyện của V3.1, giữ lại sự mập mờ chiến lược để tạo sức tò mò cho cộng đồng.
Sự phát triển của DeepSeek cho thấy Trung Quốc đang đẩy mạnh AI tạo sinh với chi phí thấp hơn nhưng hiệu quả cao, gây sức ép lên các công ty Mỹ như OpenAI.
Trước đó, DeepSeek đã gây chấn động khi ra mắt mô hình R1, vượt trội nhiều đối thủ phương Tây trên các bài kiểm tra chuẩn hóa.
R1 được đánh giá là bước ngoặt, chứng minh khả năng Trung Quốc trong việc cạnh tranh trực tiếp với các công ty AI hàng đầu thế giới.
Người hâm mộ đang mong chờ R2, bản kế nhiệm R1, nhưng vẫn bị trì hoãn do CEO Liang Wenfeng bị cho là quá cầu toàn và gặp một số trục trặc kỹ thuật.
Sự chậm trễ này tạo nên kỳ vọng R2 sẽ vượt trội hơn R1 cả về độ chính xác lẫn tốc độ.
DeepSeek hiện được xem là một trong những công ty AI Trung Quốc có tốc độ phát triển nhanh nhất, sánh ngang với các startup công nghệ Mỹ.
Cộng đồng AI quốc tế đang theo dõi sát sao sự tiến triển của V3.1 cũng như động thái công bố R2.

📌

DeepSeek ra mắt V3.1, mở rộng cửa sổ ngữ cảnh giúp hội thoại mạch lạc và ghi nhớ dài hơn. Thành công trước đó với R1 đã chứng minh năng lực AI tạo sinh của Trung Quốc, gây sức ép lên OpenAI và các đối thủ Mỹ. Trong khi cộng đồng đang mong chờ R2, sự xuất hiện của V3.1 cho thấy DeepSeek không ngừng đổi mới. Dù chi phí thấp hơn, họ vẫn đạt kết quả ấn tượng, củng cố hình ảnh dẫn đầu trong AI.

https://www.bloomberg.com/news/articles/2025-08-19/china-s-deepseek-release-v3-1-boosting-ai-model-s-capabilities

Không có file đính kèm.

Nguồn tham khảo

AI so sánh AI mở-nguồn mở 2025-08-18 06:53:50

Xếp hạng 19 phòng lab AI nguồn mở Trung Quốc năm 2025

Hệ sinh thái AI Trung Quốc bùng nổ mùa hè 2025 với hàng loạt mô hình nguồn mở, dẫn đầu là DeepSeek, Qwen, Kimi K2 và Zhipu GLM-4.5. Danh sách xếp hạng 19 phòng lab dựa trên chất lượng và số lượng phát hành, không chỉ năng lực tiềm ẩn.
DeepSeek: giữ vị trí số 1 với V3 và R1, nổi bật bởi chuỗi suy luận công khai và giấy phép mở. Trung bình phát hành 1 mô hình/tháng trong 18 tháng. Đóng góp GRPO vào toán học và chứng minh định lý. Tuy nhiên, gần đây nhịp độ chậm lại.
Qwen (Alibaba): được ví như “Llama của Trung Quốc”, phát hành đa dạng mô hình từ LLM, VLM, embedding, đến hình ảnh/video. Qwen 3 có 177 người đóng góp (so với Llama 3: 500+, Gemini 2.5: 3.000). Được cộng đồng ưa chuộng nhờ hỗ trợ MLX, GGUF và công cụ CLI.
Moonshot AI (Kimi): startup “AI tiger” có K2 gây tiếng vang lớn, tập trung vào một dòng mô hình với chiến lược tích hợp các thử nghiệm nhỏ. Được Alibaba hậu thuẫn.
Zhipu (Z.AI): xuất thân từ ĐH Thanh Hoa, phát hành GLM-4.5 và GLM-4.5V. Đang hướng đến IPO – có thể trở thành “AI tiger” đầu tiên lên sàn.
StepFun: pivot sang nguồn mở với Step3 (VLM), hỗ trợ đa phương tiện.
Tencent (Hunyuan): nổi bật với HunyuanVideo và Hunyuan3D, nhưng giấy phép hạn chế.
RedNote (Xiaohongshu): bất ngờ với OCR mạnh, nhưng chưa tham gia mảng LLM lớn.
MiniMax: cung cấp Minimax-Text-01 với cửa sổ ngữ cảnh 1M, đồng thời phát triển video và hình ảnh nhưng vẫn đóng.
InternLM / OpenGVLab: nổi tiếng với InternVL3, kết hợp backend Qwen.
Skywork: khởi đầu từ karaoke, nay tập trung vào agent và reasoning, xây dựng trên DeepSeek, Qwen, InternVL. Cung cấp dataset mở.
ByteDance Seed: giống FAIR, phát hành nhiều công trình nghiên cứu nổi bật (Seed-Prover, Seed-X, Seedance 1.0).
OpenBMB: cộng đồng nguồn mở từ Thanh Hoa, tập trung mô hình nhỏ cho thiết bị biên (MiniCPM-V-4).
Xiaomi (MiMo) và Baidu (ERNIE): đang thử nghiệm với nhiều mô hình nhỏ, chưa rõ chiến lược dài hạn.
Các đơn vị đáng chú ý khác: Multimodal Art Projection (YuE), Alibaba AIDC, BAAI (embedding BGE), inclusionAI (Ling Lite), Huawei Pangu (tập trung GPU, bị nghi ngờ tái chế Qwen).

📌 Năm 2025, Trung Quốc nổi lên với 19 phòng lab AI nguồn mở, dẫn đầu là DeepSeek (V3, R1) và Qwen (Alibaba) với hàng triệu lượt sử dụng. Moonshot (K2) và Zhipu (GLM-4.5) đang cạnh tranh sát nút, nhiều startup như MiniMax (cửa sổ 1 triệu token) hay Skywork (agent, dataset mở) tạo bất ngờ. Các ông lớn như Tencent, Baidu, Xiaomi vẫn dè dặt. Tốc độ phát hành trung bình 1 mô hình/tháng cho thấy Trung Quốc đang áp sát, thậm chí vượt một số đối thủ phương Tây.

https://www.interconnects.ai/p/chinas-top-19-open-model-labs

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI nhỏ AI smartphone 2025-08-15 23:03:41

Google ra mắt Gemma 3 270M: AI siêu nhỏ chạy mượt trên smartphone và trình duyệt

Google DeepMind công bố Gemma 3 270M — mô hình AI 270 triệu tham số, nhỏ hơn rất nhiều so với các LLM hàng chục tỷ tham số, nhưng vẫn thực hiện tốt tác vụ phức tạp.
Mục tiêu: tối ưu hiệu suất và khả năng chạy trực tiếp trên thiết bị như smartphone (Pixel 9 Pro SoC), trình duyệt web, Raspberry Pi, hoặc thậm chí thiết bị IoT.
Cấu trúc gồm 170 triệu embedding parameters (từ vựng 256k token, xử lý tốt từ hiếm) và 100 triệu tham số transformer block.
Có thể fine-tune trong vài phút để phục vụ nhu cầu doanh nghiệp hoặc nhà phát triển độc lập; hỗ trợ triển khai nhanh qua Hugging Face, UnSloth, JAX.
Trên benchmark IFEval, bản instruction-tuned đạt 51,2%, vượt các mô hình nhỏ như SmolLM2 135M Instruct, Qwen 2.5 0.5B Instruct, tiệm cận mô hình hàng tỷ tham số.
Rival Liquid AI lưu ý Gemma chưa so sánh với LFM2-350M (65,12%) có kích thước tương tự.
Tiết kiệm năng lượng: bản INT4 quantized chỉ tiêu tốn 0,75% pin Pixel 9 Pro sau 25 cuộc hội thoại.
Phát hành cả bản pretrained và instruction-tuned, kèm QAT checkpoints để duy trì hiệu năng cao với INT4.
Google định hướng dùng mô hình nhỏ chuyên biệt thay vì phụ thuộc vào mô hình lớn đa năng, tối ưu cho các tác vụ như sentiment analysis, entity extraction, query routing, text generation, compliance, creative writing.
Demo Bedtime Story Generator minh họa khả năng sáng tạo và xử lý ngữ cảnh hoàn toàn offline qua trình duyệt.
Giấy phép Gemma Terms of Use cho phép sử dụng, chỉnh sửa, phân phối với điều kiện tuân thủ chính sách cấm và ghi rõ thay đổi; không phải nguồn mở truyền thống nhưng hỗ trợ thương mại rộng rãi.
Doanh nghiệp được toàn quyền sở hữu nội dung đầu ra, miễn tuân thủ luật pháp và điều khoản cấm.
Hệ sinh thái Gemmaverse đã vượt 200 triệu lượt tải, với phiên bản tối ưu cho cloud, desktop và mobile.

📌 Gemma 3 270M của Google là mô hình AI 270 triệu tham số siêu nhỏ, đạt 51,2% trên IFEval, chạy mượt trên smartphone, trình duyệt và IoT với mức tiêu thụ pin 0,75% cho 25 phiên thoại. Nhờ khả năng fine-tune nhanh, triển khai offline và giấy phép thương mại linh hoạt, Gemma 3 270M mở ra cơ hội xây dựng ứng dụng AI chuyên biệt, tiết kiệm chi phí và bảo vệ quyền riêng tư.

https://venturebeat.com/ai/google-unveils-ultra-small-and-efficient-open-source-ai-model-gemma-3-270m-that-can-run-on-smartphones/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-08-15 06:19:10

Trung Quốc đang dẫn đầu làn sóng AI nguồn mở toàn cầu khiến Washington và Thung lũng Silicon lo ngại

Trung Quốc đang nhanh chóng vươn lên trong cuộc đua AI toàn cầu bằng chiến lược tập trung vào các mô hình AI nguồn mở, có thể tải và tùy chỉnh miễn phí, như DeepSeek, Qwen (Alibaba), Moonshot, Z.ai và MiniMax.
Kể từ tháng 1/2025, với sự ra mắt của DeepSeek R1, các mô hình AI nguồn mở Trung Quốc liên tục xuất hiện và ngày càng được cộng đồng toàn cầu đón nhận.
Trái lại, các công ty Mỹ, vốn giữ kín mô hình AI, bắt đầu bị áp lực. Đầu tháng 8, OpenAI đã tung ra gpt-oss, mô hình nguồn mở đầu tiên của họ.
Chính quyền Trump cũng cảnh báo trong kế hoạch AI rằng mô hình nguồn mở có thể trở thành tiêu chuẩn toàn cầu và kêu gọi phát triển các mô hình dẫn đầu "dựa trên giá trị Mỹ".
Dù chưa có doanh thu trực tiếp, các công ty AI có thể khai thác hệ sinh thái dịch vụ ăn theo – tương tự cách Google kiếm tiền từ Android.
Trung Quốc khuyến khích mạnh mẽ phát triển AI nguồn mở như một chiến lược "dự phòng" trong trường hợp bị cắt khỏi công nghệ Mỹ – bao gồm hệ điều hành, vi xử lý và phần mềm kỹ thuật.
Theo công ty phân tích Artificial Analysis, Qwen3 của Alibaba vượt gpt-oss của OpenAI về hiệu suất tổng thể, nhưng tiêu tốn tài nguyên hơn do kích thước mô hình gần gấp đôi.
Các doanh nghiệp châu Á ưa chuộng mô hình Trung Quốc vì hiểu tốt hơn ngôn ngữ và sắc thái văn hóa địa phương.
- Ví dụ: Ngân hàng OCBC (Singapore) đang dùng cùng lúc khoảng 10 mô hình AI nguồn mở, bao gồm cả Qwen và DeepSeek.
- Kỹ sư Shinichi Usami (Nhật Bản) chọn Qwen để phát triển chatbot vì xử lý ngôn ngữ "lịch sự và tinh tế hơn" so với mô hình Mỹ.
Cuộc cạnh tranh gay gắt giữa các công ty AI Trung Quốc đang chuyển từ mô hình đóng sang nguồn mở, với mục tiêu chiếm lĩnh người dùng thay vì doanh thu ngay lập tức.
Amazon Web Services đánh giá gpt-oss tiết kiệm chi phí hơn khi chạy trên hạ tầng của họ, nhưng DeepSeek và Qwen lại được đánh giá cao về xử lý ngôn ngữ khu vực.
Trung Quốc cũng thúc đẩy hợp tác quốc tế về AI nguồn mở, xem đây là công cụ địa chính trị mới để xây dựng "chuỗi bạn bè" toàn cầu và thu hẹp khoảng cách số.

📌 Trung Quốc đang thay đổi cục diện AI toàn cầu bằng làn sóng mô hình nguồn mở như Qwen và DeepSeek, khiến Mỹ lo ngại về mất vị thế chiến lược. Với 60% bằng sáng chế AI toàn cầu và khả năng xử lý ngôn ngữ khu vực vượt trội, Trung Quốc đặt mục tiêu biến AI nguồn mở thành tiêu chuẩn mới. Trung Quốc cũng thúc đẩy hợp tác quốc tế về AI nguồn mở, xem đây là công cụ địa chính trị mới để xây dựng "chuỗi bạn bè" toàn cầu và thu hẹp khoảng cách số.

https://www.wsj.com/tech/ai/chinas-lead-in-open-source-ai-jolts-washington-and-silicon-valley-ffdec83b

China’s Lead in Open-Source AI Jolts Washington and Silicon Valley
Free-to-use models from DeepSeek, Alibaba and others gain users worldwide
By
Raffaele Huang
Aug. 12, 2025 11:00 pm ET

Alexandra Citrin-Safadi/WSJ
China’s ambition to turn its open-source artificial-intelligence models into a global standard has jolted American companies and policymakers, who fear U.S. models could be eclipsed and are mobilizing their responses to the threat.
Chinese advances in AI have come one after another this year, starting with the widely heralded DeepSeek and its R1 reasoning model in January. This was followed by Alibaba’s Qwen and a flurry of others since July, with names such as Moonshot, Z.ai and MiniMax.
The models all have versions that are free for users to download and modify. This approach, commonly referred to as open source or open weight, is driving global adoption of Chinese AI technology.
American companies that have kept their models proprietary are feeling the pressure. In early August, ChatGPT maker OpenAI released its first open-source model, called gpt-oss.
The history of technology offers many examples where a welter of competitors in an industry’s infancy eventually evolved into a monopoly or oligopoly of a few players. Microsoft’s Windows operating system for desktops, Google’s search engine, and the iOS and Android operating systems for smartphones are just a few of the examples.
History also teaches that the battle to become an industry standard isn’t necessarily won by the most technologically advanced player. Easy availability and flexibility play a role, which is why China’s advances in open-source AI worry many in Washington and Silicon Valley.
In an AI action plan released in July, the Trump administration said open-source models “could become global standards in some areas of business and in academic research.” The report called on the U.S. to build “leading open models founded on American values.”

President Trump displayed a signed executive order related to his Artificial Intelligence Action Plan last month.
For now, the rewards to the winners in open-source AI are slim, since they spend hundreds of millions of dollars developing models and get paid nothing directly in return. But those who lock in users may be able to sell other services piggybacking on the free part, just as Google offers search, YouTube and other revenue-generating products bundled with its Android operating system.
Android is itself open source and built on Linux, an open-source operating system still widely used in the industry.
Researchers have long embraced open source as a way of accelerating the development of emerging technology, since it allows every user to see the code and suggest improvements. Chinese officials have encouraged open-source research and development not only in AI but also in operating systems, semiconductor architecture and engineering software.
“Fearing being cut off from American technologies, China is fostering open-source projects as a strategic fallback and emergency resource,” said Lian Jye Su, an analyst at research firm Omdia focusing on AI.
This year’s U.S.-China trade war has shown how each side can leverage its industrial advantages—such as Nvidia chips for the U.S. and rare-earth minerals for China—to extract concessions from the other side. U.S. officials worry that if Chinese AI models dominate the globe, Beijing will figure out a way to exploit it for geopolitical advantage.
Away from politics, open-source AI models are vying for adoption by businesses. Many customers like open-source AI because they can freely adapt it and put it on their computer systems, keeping sensitive information in-house.
Singapore-based Oversea-Chinese Banking, one of Southeast Asia’s biggest banks, has developed around 30 internal tools using open-source models, including Google’s Gemma to summarize documents, Qwen to help write computer code and DeepSeek to analyze market trends.
The bank said it avoided being locked into any one model. It monitors new releases and can switch if it likes a new model. It also prefers models that many developers are familiar with, so it can get technical support.
“At any point in time, we probably have a stable of about 10 open-source models that we’re using,” said Donald MacDonald, an executive at OCBC.
The overall performance of China’s best open-weight model has surpassed the American open-source champion since November, according to research firm Artificial Analysis. The firm, which rates the ability of models in math, coding and other areas, found a version of Alibaba’s Qwen3 beat OpenAI’s gpt-oss.
However, the Chinese model is almost twice as big as OpenAI’s, suggesting that for simpler tasks, Qwen might consume more computing power to do the same job. OpenAI said its open-source model outperformed rivals of similar size on reasoning tasks and delivered strong performance at low cost.
Major U.S. cloud-service providers have started offering gpt-oss to their users. Amazon Web Services said the OpenAI model was more cost-effective than DeepSeek’s R1 running on its infrastructure.

WSJ explains in a video from May how China is catching up in the global AI race. Photo Illustration: Ryan Trefes/James Park/Bloomberg
Engineers, especially those in Asia, said they found Chinese models were often more sophisticated in understanding their local languages and catching cultural nuances. Models from China are trained with more data in Chinese, which shares similarities with some other Asian languages.
Shinichi Usami, an engineer in Yokohama, Japan, recently developed a customer-service chatbot for a retail client. He chose Alibaba’s Qwen.
With a leading U.S. model, he said, “we’ve observed instances where the chatbot struggles to grasp the implicit intent from users’ words and the responses can occasionally be not polite enough,” said Usami. “Qwen appears to handle these nuances better.”
Companies in China’s hypercompetitive AI industry at first focused on undercutting each other’s prices for closed-source models. That competition has extended in recent months to open-source models as everyone fights for adoption and public recognition.
“Chinese companies often prioritize user stickiness over immediate revenue,” said Charlie Chai, a Shanghai-based tech analyst at 86Research.
While startups have a window to attract users, it won’t last long, analysts said, and larger tech companies are often best-positioned to cash in on a big user base by offering related services such as specialized apps or cloud services.
“This Darwinian life-or-death struggle will lead to the demise of many of the existing players, but the intense competition breeds strong companies,” wrote Andrew Ng, head of Silicon Valley startup DeepLearning.AI, in a recent blog.

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2025-08-08 06:22:20

Saudi Arabia triển khai lần đầu tiên tại khu vực các mô hình nguồn mở của OpenAI thông qua hợp tác HUMAIN–Groq

Saudi Arabia trở thành quốc gia đầu tiên trong khu vực triển khai các mô hình nguồn mở mới nhất của OpenAI thông qua hợp tác giữa HUMAIN và Groq.
Các mô hình gpt-oss-120B và gpt-oss-20B được vận hành trên hạ tầng suy luận tốc độ cao của Groq, đặt trong trung tâm dữ liệu chủ quyền của HUMAIN tại Saudi Arabia.
Động thái này nằm trong chiến lược bản địa hóa hạ tầng AI tiên tiến, tuân thủ yêu cầu pháp lý và chủ quyền dữ liệu quốc gia, đồng thời hỗ trợ đa dạng hóa kinh tế.
Theo Vision 2030, Saudi Arabia hướng tới nền kinh tế số dựa trên AI, đầu tư mạnh vào hạ tầng tính toán chủ quyền để phục vụ thị trường mới nổi ở châu Phi và châu Á.
HUMAIN (hậu thuẫn bởi Quỹ Đầu tư Công – PIF) khẳng định triển khai này giúp nhà phát triển, nhà nghiên cứu và doanh nghiệp nội địa tiếp cận công cụ AI vốn bị hạn chế do hạ tầng hoặc quy định.
Groq (Mỹ) cung cấp nền tảng xử lý tùy chỉnh với hiệu năng ổn định, tốc độ cao.
CEO HUMAIN Tareq Amin nhấn mạnh đây là bước tiến tới tự chủ công nghệ, cho phép truy cập trực tiếp các mô hình AI tiên tiến nhất, tuân thủ đầy đủ luật dữ liệu trong nước.
gpt-oss-120B đạt hơn 500 token/giây, gpt-oss-20B vượt 1.000 token/giây trên nền tảng Groq.
HUMAIN được thành lập tháng 5 với sự hậu thuẫn từ Nvidia, AMD, Cisco, AWS, ký các thỏa thuận trị giá hàng tỷ USD để mở rộng năng lực tính toán AI, trung tâm dữ liệu và mô hình nền tảng.
Hạ tầng được định vị “hoàn toàn chủ quyền”, bảo đảm mọi xử lý dữ liệu tuân thủ quy định Saudi Arabia, quan trọng cho các tổ chức cần lưu trữ và xử lý dữ liệu tại chỗ.
CEO Groq Jonathan Ross khẳng định hợp tác này mở rộng hiện diện công ty ở Trung Đông và tăng sức cạnh tranh trong hệ sinh thái AI phát triển nhanh.
Công bố này nối tiếp hợp tác tháng 5, phù hợp với chiến lược quốc gia của Saudi Arabia trở thành đối thủ đáng gờm trong phát triển AI toàn cầu.

📌 Saudi Arabia tạo bước đột phá khi triển khai mô hình AI mở gpt-oss-120B (500 token/giây) và gpt-oss-20B (1.000 token/giây) của OpenAI ngay trong lãnh thổ, thông qua HUMAIN–Groq. HUMAIN (hậu thuẫn bởi Quỹ Đầu tư Công – PIF) và các “ông lớn” như Nvidia, AMD, AWS, hạ tầng AI chủ quyền này không chỉ phục vụ nội địa mà còn mở đường để Saudi Arabia trở thành trung tâm AI chiến lược cho châu Phi và châu Á.

https://www.arabnews.com/node/2610991/business-economy

Không có file đính kèm.

Nguồn tham khảo

OpenAI ChatGPT AI mở-nguồn mở 2025-08-07 00:00:44

OpenAI tung các mô hình AI lý luận mạnh mẽ trọng số mở, phù hợp với Kế hoạch hành động AI của Nhà Trắng

OpenAI công bố phát hành các mô hình reasoning tiên tiến nhất dưới dạng trọng số mở, đánh dấu bước tiến lớn trong việc đưa AI đến tay đông đảo người dùng trên toàn thế giới.
Những mô hình này có khả năng giải quyết vấn đề phức tạp, tùy biến cao và có thể được triển khai trực tiếp trên hạ tầng của cá nhân, doanh nghiệp, chính phủ hoặc tổ chức phi lợi nhuận.
Đây là một phần trong sáng kiến “OpenAI for Countries”, hỗ trợ các quốc gia đồng minh xây dựng hạ tầng AI dựa trên giá trị dân chủ và minh bạch.
Các mô hình cũng được phân phối qua tổ chức phi lợi nhuận của OpenAI để giúp các tổ chức cộng đồng mở rộng tác động xã hội bằng AI.
OpenAI cho rằng quyền truy cập vào AI tiên tiến không nên tập trung vào số ít mà phải phục vụ đại chúng – nhất là ở các thị trường mới nổi, tổ chức thiếu tài nguyên hoặc quốc gia có yêu cầu nghiêm ngặt về lưu trữ dữ liệu.
Việc mã nguồn mở giúp tạo hiệu ứng mạng, nơi mọi cải tiến nhỏ từ cộng đồng sẽ nâng cao giá trị toàn hệ sinh thái, giống như cách Linux phát triển.
Ngoài ra, AI còn là công cụ sức mạnh mềm: quốc gia tạo ra mô hình được sử dụng rộng rãi nhất sẽ định hình tiêu chuẩn toàn cầu.
Mô hình trọng số mở giúp các chính phủ và tổ chức có thể triển khai AI mà không cần phụ thuộc vào dịch vụ đám mây bên ngoài, bảo vệ dữ liệu nhạy cảm tốt hơn.
Đây là bước tiếp theo trong chuỗi phát hành mã nguồn mở của OpenAI như Whisper, GPT-2, CLIP và phù hợp với AI Action Plan của Nhà Trắng, ưu tiên thúc đẩy AI theo định hướng Hoa Kỳ.

📌 OpenAI ra mắt các mô hình AI lý luận tiên tiến nhất với trọng số mở, giúp mọi quốc gia, tổ chức và cá nhân tiếp cận và tùy biến AI trên hạ tầng riêng. Sáng kiến này không chỉ thúc đẩy dân chủ hóa AI, mà còn tạo nền tảng AI mang giá trị Hoa Kỳ, Đây là bước tiếp theo trong chuỗi phát hành mã nguồn mở của OpenAI như Whisper, GPT-2, CLIP và phù hợp với AI Action Plan của Nhà Trắng, ưu tiên thúc đẩy AI theo định hướng Hoa Kỳ.

https://openai.com/global-affairs/open-weights-and-ai-for-all/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI chips-hardware-compute 2025-08-06 23:51:01

Huawei tuyên chiến Nvidia: Mã nguồn mở CANN để phá thế độc quyền AI

Huawei tuyên bố sẽ mã nguồn mở bộ công cụ CANN (Compute Architecture for Neural Networks) – phần mềm phát triển ứng dụng cho bộ xử lý AI Ascend, nhằm tạo nền tảng thay thế cho CUDA độc quyền của Nvidia.
Chủ tịch luân phiên Eric Xu khẳng định mục tiêu là giúp CANN dễ dùng hơn và đẩy nhanh đổi mới từ cộng đồng nhà phát triển.
Huawei đang phối hợp với các công ty AI hàng đầu Trung Quốc, trường đại học và viện nghiên cứu để xây dựng hệ sinh thái nguồn mở Ascend.
CANN lần đầu ra mắt năm 2018 và phiên bản mới nhất CANN 8.0 được giới thiệu vào tháng 9/2024. Huawei gọi đây là "nền tảng cơ bản" cho hệ sinh thái Ascend.
Động thái này diễn ra sau khi Cục Quản lý Không gian mạng Trung Quốc (CAC) mở điều tra chip H20 của Nvidia – một dòng GPU được thiết kế riêng cho thị trường Trung Quốc để tuân thủ các hạn chế xuất khẩu của Mỹ.
CAC lo ngại về vấn đề bảo mật nghiêm trọng và khả năng bị điều khiển từ xa của H20. Nvidia phủ nhận có "cửa sau" trong chip và khẳng định ưu tiên an ninh mạng.
Năm ngoái, Nvidia cập nhật điều khoản CUDA, cấm chạy CUDA trên GPU của bên thứ ba thông qua lớp dịch mã. Điều này càng làm nổi bật vai trò của nền tảng mã nguồn mở như CANN.
Một tuần trước, hơn 10 công ty bán dẫn và AI Trung Quốc, bao gồm StepFun, SiliconFlow, Biren, Cambricon... đã thành lập Liên minh Đổi mới Hệ sinh thái Model-Chips, nhằm thúc đẩy dùng chip trong nước cho dự án AI.
CEO Nvidia, Jensen Huang, từng nói Nvidia vẫn dẫn trước một thế hệ công nghệ, nhưng thừa nhận Huawei có khả năng mở rộng mạnh nếu lệnh cấm của Mỹ tiếp tục.

📌 Huawei chính thức mã nguồn mở CANN, tạo đòn tấn công trực diện vào CUDA của Nvidia giữa bối cảnh Trung Quốc đẩy mạnh tự chủ AI. Bộ công cụ giúp mở rộng hệ sinh thái Ascend, thúc đẩy phát triển phần mềm nội địa và giảm phụ thuộc vào GPU Mỹ. Trong khi đó, Cục Quản lý Không gian mạng Trung Quốc điều tra chip H20 của Nvidia vì lo ngại bảo mật, khiến vị thế Nvidia tại Trung Quốc càng lung lay.

https://www.scmp.com/tech/tech-war/article/3320852/tech-war-huawei-open-source-ai-chip-toolkit-take-nvidias-proprietary-platform

Không có file đính kèm.

Nguồn tham khảo

OpenAI ChatGPT AI mở-nguồn mở AI PC 2025-08-06 07:53:42

OpenAI tung mô hình AI mở gpt-oss-20b chạy trực tiếp trên thiết bị sử dụng chip Snapdragon

OpenAI lần đầu công bố mô hình lập luận nguồn mở gpt-oss-20b chạy trực tiếp trên thiết bị tích hợp vi xử lý Snapdragon, đánh dấu cột mốc quan trọng trong việc đưa AI từ đám mây về thiết bị cá nhân.
gpt-oss-20b là mô hình AI tạo sinh với 20 tỷ tham số, hỗ trợ reasoning theo kiểu chain-of-thought (CoT) mà không cần phụ thuộc vào hạ tầng đám mây.
Qualcomm xác nhận đã thực hiện kiểm thử tích hợp sớm giữa gpt-oss-20b với Qualcomm AI Engine và Qualcomm AI Stack, cho thấy khả năng lập luận mạnh mẽ hoàn toàn trên thiết bị (on-device inference).
Việc tích hợp này giúp giảm độ trễ, tăng bảo mật dữ liệu và hướng tới trải nghiệm AI cá nhân hóa, không phụ thuộc hoàn toàn vào internet hay server từ xa.
Các nhà phát triển có thể truy cập mô hình gpt-oss-20b qua các nền tảng phổ biến như Hugging Face và Ollama, hỗ trợ cài đặt và sử dụng trực tiếp trên các thiết bị chạy nền tảng Snapdragon.
Ollama cung cấp một framework nhẹ, mã nguồn mở cho mô hình LLM, hỗ trợ gpt-oss-20b chạy cùng các tính năng như web search mặc định, và chế độ turbo mode để khám phá thêm các khả năng nâng cao.
Qualcomm cho rằng đây là bước ngoặt của ngành AI, đặc biệt khi bộ nhớ thiết bị di động tiếp tục mở rộng và phần mềm ngày càng tối ưu hóa.
Trong vài năm tới, Qualcomm kỳ vọng khả năng AI tại chỗ sẽ tăng nhanh, mở đường cho trợ lý AI cá nhân hóa, riêng tư, có độ trễ cực thấp, hoạt động ngay trong lòng thiết bị người dùng.

📌 gpt-oss-20b là mô hình AI lập luận đầu tiên từ OpenAI chạy trực tiếp trên thiết bị dùng Snapdragon, với 20 tỷ tham số, hỗ trợ CoT reasoning, mang lại độ trễ thấp, bảo mật cao và trải nghiệm cá nhân hóa. Qualcomm đã kiểm thử thành công với AI Stack, mở rộng ứng dụng AI tạo sinh ngay trên thiết bị.

https://www.qualcomm.com/news/onq/2025/08/openai-model-on-device-snapdragon

Không có file đính kèm.

Nguồn tham khảo

OpenAI ChatGPT AI mở-nguồn mở 2025-08-06 07:49:30

OpenAI ra mắt gpt-oss-120b và gpt-oss-20b – hai mô hình ngôn ngữ AI nguồn mở hàng đầu

OpenAI phát hành hai mô hình AI nguồn mở: gpt-oss-120b và gpt-oss-20b theo giấy phép Apache 2.0, tập trung vào khả năng lập luận và sử dụng công cụ mạnh mẽ với chi phí thấp.
gpt-oss-120b có 117 tỷ tham số, chỉ kích hoạt 5.1 tỷ/tham số mỗi token, chạy hiệu quả trên GPU 80 GB.
gpt-oss-20b với 21 tỷ tham số, chỉ cần 16 GB RAM, lý tưởng cho inference tại chỗ, thiết bị biên, hoặc phát triển nhanh.
Cả hai mô hình đều hỗ trợ tool use, function calling, chain-of-thought (CoT), và cấu trúc đầu ra có cấu trúc. Giao diện tương thích với Responses API.
Kiến trúc dựa trên Mixture-of-Experts (MoE):
- gpt-oss-120b: 36 layers, 128 experts, 4 experts hoạt động/layer
- gpt-oss-20b: 24 layers, 32 experts, 4 active experts
- Đều hỗ trợ context length lên đến 128.000 token
Đánh giá khả năng lập luận vượt trội:
- HealthBench: gpt-oss-120b đạt 59.8%, vượt o3 và GPT-4o
- AIME 2024: gpt-oss-20b đạt 98.7%, gpt-oss-120b đạt 97.9%
- MMLU: gpt-oss-120b đạt 67.8%
- GPQA (PhD-level): gpt-oss-120b đạt 90%
Tích hợp safety bằng framework kiểm tra phơi nhiễm và huấn luyện chống prompt injection. Mô hình đã được kiểm thử với phiên bản tinh chỉnh độc hại nhưng vẫn không đạt capability cao, đảm bảo an toàn phát hành.
Phân phối qua nhiều nền tảng như Hugging Face, Azure, vLLM, llama.cpp, Cloudflare, Apple Metal, hỗ trợ inference tại chỗ và đám mây.
Có phiên bản GPU-optimized cho Windows (ONNX Runtime), mã nguồn mở tokenizer o200k_harmony, thư viện harmony renderer bằng Python và Rust.

📌 OpenAI phát hành gpt-oss-120b và gpt-oss-20b – hai mô hình ngôn ngữ AI nguồn mở mạnh mẽ với khả năng lập luận vượt trội (MMLU: 67.8%, GPQA: 90%, AIME: ~98%), hỗ trợ inference tại chỗ với RAM từ 16 GB, kiến trúc MoE tiên tiến, tích hợp an toàn vượt chuẩn, và tương thích rộng rãi trên nhiều nền tảng.

https://openai.com/index/introducing-gpt-oss/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2025-08-03 08:42:18

Mỹ coi AI nguồn mở là ưu tiên quốc gia nhằm duy trì vị thế dẫn đầu

Tuần trước, Tổng thống Mỹ Donald Trump công bố Kế hoạch Hành động AI mới, gây bất ngờ khi xác định AI nguồn mở là ưu tiên quốc gia để đối phó với ảnh hưởng công nghệ ngày càng tăng của Trung Quốc.
Trung Quốc đã phát hành mô hình DeepSeek-R1 đầu năm nay, không có họp báo hay trình diễn công nghệ nhưng thu hút đông đảo cộng đồng AI nhờ mã nguồn và trọng số mở (open-weight), giúp bất kỳ ai có năng lực tính toán đều có thể tải về, chỉnh sửa hoặc huấn luyện lại.
DeepSeek nhanh chóng trở thành mô hình được yêu thích nhất trên nền tảng Hugging Face, với hàng ngàn phiên bản do các công ty, viện nghiên cứu và startup toàn cầu (bao gồm cả Mỹ) phát triển dựa trên nền tảng này.
Trái lại, nhiều công ty AI lớn của Mỹ như OpenAI, Anthropic (Claude), và Google (Gemini) đang ngày càng đóng kín sản phẩm, chỉ cho phép sử dụng qua API, không công bố dữ liệu, mã nguồn hay trọng số.
Từ năm 2016–2020, Mỹ dẫn đầu AI nguồn mở với sự đóng góp từ Google, Stanford, OpenAI… đặc biệt là mô hình Transformer – nền tảng của ChatGPT. Nhưng hiện tại, các nhà khoa học Mỹ đang phải xây dựng công nghệ dựa trên nền tảng của Trung Quốc.
Lợi thế nguồn mở giúp đẩy nhanh thử nghiệm, giảm chi phí tiếp cận và tạo ra sáng tạo liên tục. Khi Mỹ tụt lại trong lĩnh vực này, toàn bộ hệ sinh thái đổi mới cũng chậm lại.
AI nguồn mở còn quan trọng về mặt an ninh, tính minh bạch, kiểm toán độc lập và đảm bảo quyền kiểm soát của người dùng – những điều không thể đạt được với “hộp đen” AI.
Một số tổ chức Mỹ như Meta (LLaMA), Allen Institute và các startup như Black Forest vẫn tiếp tục thúc đẩy mã nguồn mở. Chính sách AI mới là cơ hội để hồi sinh văn hóa "khoa học mở" trong cộng đồng công nghệ Mỹ.

📌 Việc Trung Quốc dẫn đầu xu hướng AI mã nguồn mở khiến Mỹ thay đổi chiến lược, coi đây là ưu tiên quốc gia để duy trì vị thế trong cuộc đua trị giá hàng nghìn tỉ USD. Với mô hình như DeepSeek, Trung Quốc đang đặt nền móng cho hệ sinh thái AI toàn cầu. Mỹ cần quay lại với văn hóa khoa học mở để giữ vững vai trò lãnh đạo và xây dựng một tương lai AI phản ánh giá trị dân chủ.

https://venturebeat.com/ai/why-open-source-ai-became-an-american-national-priority/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI models 2025-07-29 10:09:35

Startup Trung Quốc Z.ai vừa ra mắt GLM-4.5 – mô hình AI nguồn mở mới rẻ hơn DeepSeek

Z.ai (trước đây là Zhipu) công bố mô hình AI mới GLM-4.5, tuyên bố có chi phí sử dụng rẻ hơn cả DeepSeek – vốn đã gây chấn động toàn cầu hồi đầu năm.
GLM-4.5 là mô hình nguồn mở, cho phép tải miễn phí và sử dụng linh hoạt. Mô hình hoạt động theo hướng agentic AI, tức tự động chia nhỏ nhiệm vụ để hoàn thành chính xác hơn.
Kích thước GLM-4.5 chỉ bằng một nửa DeepSeek, giúp tiết kiệm tài nguyên đáng kể. Theo CEO Zhang Peng, chỉ cần 8 chip Nvidia H20 để vận hành mô hình này.
Nvidia H20 là loại chip tùy chỉnh cho thị trường Trung Quốc, nhằm tuân thủ các quy định kiểm soát xuất khẩu từ Mỹ. Dù Mỹ vừa cho phép nối lại xuất khẩu, thời điểm giao hàng vẫn chưa rõ.
Về chi phí sử dụng: Z.ai chỉ tính 0,11 USD/triệu token đầu vào và 0,28 USD/triệu token đầu ra. Trong khi đó, DeepSeek R1 là 0,14 USD/triệu đầu vào và 2,19 USD/triệu đầu ra.
Mô hình mới rẻ hơn cả Kimi K2 của Moonshot AI (0,15 USD đầu vào, 2,50 USD đầu ra), vốn đã vượt mặt ChatGPT và Claude về khả năng lập trình.
Dù không tiết lộ chi phí huấn luyện GLM-4.5, Z.ai xác nhận đã có đủ tài nguyên tính toán và sẽ công bố số liệu sau.
Z.ai bị OpenAI nêu tên trong cảnh báo về sự trỗi dậy AI Trung Quốc và đã bị Mỹ đưa vào danh sách hạn chế.
Thành lập năm 2019, Z.ai đã huy động trên 1,5 tỷ USD từ các nhà đầu tư lớn như Alibaba, Tencent, Qiming, Prosperity7 Ventures (Aramco) và các quỹ thành phố từ Hàng Châu và Thành Đô.
Ngoài Z.ai, Trung Quốc còn nhiều công ty khác công bố mô hình AI nguồn mở mới như Tencent với HunyuanWorld-1.0 (tạo cảnh 3D cho game) và Alibaba với Qwen3-Coder (viết mã lập trình).

📌 Mô hình AI GLM-4.5 của Z.ai mở rộng cuộc đua AI nguồn mở khi tuyên bố rẻ hơn DeepSeek và vận hành chỉ với 8 chip Nvidia H20. Chi phí đầu ra thấp kỷ lục 0,28 USD/triệu token cho thấy chiến lược AI giá rẻ của Trung Quốc đang tăng tốc, với hậu thuẫn từ các “ông lớn” như Alibaba và Tencent. Mỹ đã đưa Z.ai vào danh sách hạn chế, nhưng điều đó không ngăn được đà bứt phá.

https://www.cnbc.com/2025/07/28/chinas-latest-ai-model-claims-to-be-even-cheaper-to-use-than-deepseek.html

Không có file đính kèm.

Nguồn tham khảo

AI robotics-auto-agents AI mở-nguồn mở 2025-07-28 07:30:50

NVIDIA ra mắt Llama Nemotron Super v1.5 với độ chính xác vượt trội trong suy luận, mã hóa và ứng dụng AI agent

Llama Nemotron Super v1.5 là phiên bản tiên tiến nhất của dòng Nemotron, được thiết kế đặc biệt cho các tác vụ đòi hỏi suy luận phức tạp như toán học, khoa học, tạo mã và AI tác tử.
Mô hình đạt hiệu suất suy luận gấp 3 lần so với phiên bản trước, tối ưu chi phí và vận hành trên chỉ một GPU.
Được tinh chỉnh sau huấn luyện bằng tập dữ liệu đặc biệt có tín hiệu cao, giúp nâng cao độ chính xác trong các bài toán đa bước và các tình huống ra quyết định phức tạp.
Ứng dụng kỹ thuật neural architecture search và pruning nâng cao, giúp tăng tốc độ suy luận mà không làm giảm độ chính xác.
Llama Nemotron Super v1.5 vượt trội về suy luận đa bước, sử dụng công cụ có cấu trúc, theo dõi hướng dẫn và tổng hợp mã trong các bài benchmark công khai và nội bộ.
Hỗ trợ triển khai đơn giản trên hạ tầng cá nhân và doanh nghiệp, tiết kiệm chi phí phần cứng và thời gian.
Mô hình có khả năng tích hợp với các tác vụ AI tác tử như trợ lý hội thoại, công cụ mã hóa tự động, AI cho nghiên cứu khoa học, và quy trình tự động thông minh trong doanh nghiệp.
Được cung cấp dưới dạng mã nguồn mở trên Hugging Face và hỗ trợ thử nghiệm trực tiếp tại build.nvidia.com, tăng cường tính minh bạch và khả năng tùy chỉnh.
Tuân thủ các chuẩn mực AI hàng đầu như minh bạch dữ liệu huấn luyện, kiểm định chất lượng đầu ra, và phát triển AI có thể diễn giải.
Định hình tương lai của AI tác tử với sự kết hợp mạnh mẽ giữa hiệu suất, tính mở và khả năng mở rộng cộng đồng.

📌 NVIDIA Llama Nemotron Super v1.5 đánh dấu bước nhảy vọt cho mô hình AI suy luận với tốc độ nhanh hơn gấp 3 lần, hoạt động mượt mà trên 1 GPU và tối ưu cho các ứng dụng AI tác tử. Mô hình mở này hứa hẹn cách mạng hóa cách doanh nghiệp và nhà phát triển xây dựng AI, từ mã hóa đến nghiên cứu khoa học.

https://www.marktechpost.com/2025/07/27/nvidia-ai-dev-team-releases-llama-nemotron-super-v1-5-setting-new-standards-in-reasoning-and-agentic-ai/

Không có file đính kèm.

Nguồn tham khảo

AI pháp lý-quản trị-chủ quyền AI mở-nguồn mở 2025-07-26 08:03:52

Trung Quốc đang định hình cuộc đua AI toàn cầu bằng sức mạnh mềm, với các mô hình AI nguồn mở

Tháng 1/2025, DeepSeek – công ty AI Trung Quốc – ra mắt mô hình R1 với 33 triệu người dùng, đến tháng 4 tăng gần gấp ba lên 97 triệu, cùng hơn 2,5 triệu lượt tải các phiên bản tùy chỉnh.
Các mô hình AI nguồn mở như DeepSeek R1 và Kimi K2 của Moonshot AI cho phép các quốc gia, đặc biệt là đang phát triển, truy cập công nghệ tiên tiến với chi phí thấp và khả năng tùy biến cao – điều mà các mô hình AI đóng của Mỹ khó cạnh tranh.
Chính sách AI của Trung Quốc nhấn mạnh hợp tác quốc tế, chia sẻ công nghệ, và phát triển hệ sinh thái đổi mới mở, trái ngược với Mỹ vốn ưu tiên kiểm soát công nghệ vì lo ngại an ninh.
Trung Quốc đang tận dụng sức mạnh mềm – ảnh hưởng qua công nghệ, giáo dục và văn hóa – để mở rộng tầm ảnh hưởng toàn cầu, tương tự cách Mỹ từng làm sau Thế chiến II.
Hạ tầng kỹ thuật số như Huawei Cloud, Alibaba Cloud, cáp quang biển và trung tâm dữ liệu đang được Trung Quốc triển khai ở các nước Đông Nam Á, Châu Phi và Mỹ Latinh.
Các mô hình mở cho phép quốc gia không có năng lực AI nội địa có thể tinh chỉnh AI phục vụ mục tiêu riêng như chăm sóc sức khỏe hoặc giáo dục địa phương – điều mà mô hình đóng khó cung cấp.
Niềm tin vào AI ở các nước đang phát triển cao hơn nhiều so với Mỹ, với 77% người dân Ấn Độ tin tưởng AI, so với chỉ khoảng 35% ở Mỹ, tạo điều kiện thuận lợi để mô hình AI Trung Quốc lan rộng.
Trong khi Mỹ tập trung vào phát triển AI tổng quát và bảo vệ quyền sở hữu công nghệ, Trung Quốc lại nhấn mạnh ứng dụng thực tế như AI trong xe hơi, thiết bị gia dụng, y tế...
OpenAI và Google đã phản ứng sau “cú sốc DeepSeek” bằng việc giảm giá model và cam kết phát hành mô hình mã nguồn mở trong mùa hè 2025 (OpenAI), nhưng hiệu suất vẫn kém hơn so với mô hình đóng.
Mỹ được khuyến nghị thúc đẩy hệ sinh thái AI nguồn mở nội địa thông qua tài trợ nghiên cứu, hợp tác công – tư và cải thiện chính sách kiểm soát xuất khẩu chip dựa theo hiệu suất, thay vì cấm toàn diện.
Việc tập trung vào mô hình nguồn mở có thể giúp Mỹ mở rộng sức mạnh mềm, mang lại các lựa chọn hấp dẫn hơn cho đồng minh và đối tác so với AI Trung Quốc.

📌 Trung Quốc đang mở rộng ảnh hưởng AI toàn cầu thông qua mô hình nguồn mở giá rẻ, dễ tùy biến như DeepSeek R1 và Kimi K2 – đặc biệt tại các nước đang phát triển. Trong khi Mỹ tập trung vào bảo vệ công nghệ và phát triển mô hình đóng, Trung Quốc đẩy mạnh hợp tác, hạ tầng số và sức mạnh mềm. Nếu không điều chỉnh chiến lược, Mỹ có thể mất vị thế dẫn đầu trong cuộc đua AI toàn cầu.

https://www.foreignaffairs.com/united-states/chinas-overlooked-ai-strategy

Không có file đính kèm.

Nguồn tham khảo

AI pháp lý-quản trị-chủ quyền AI mở-nguồn mở 2025-07-25 07:35:06

Bộ trưởng số Singapore hoan nghênh AI giá rẻ như DeepSeek của Trung Quốc

Bộ trưởng kỹ thuật số Singapore Josephine Teo nhận định các mô hình AI giá rẻ như DeepSeek của Trung Quốc là “rất đáng hoan nghênh” vì giúp các quốc gia nhỏ tiếp cận AI mà không phải chi trả quá nhiều.
DeepSeek gây chấn động thị trường tài chính Mỹ đầu năm 2025 khi cho thấy có thể huấn luyện mô hình hiệu quả với chi phí thấp hơn nhiều so với Big Tech Mỹ, khiến giá cổ phiếu công nghệ sụt giảm mạnh.
Trong khi Microsoft và Amazon vẫn đang xem xét lại chiến lược đầu tư hạ tầng AI, cổ phiếu công nghệ Trung Quốc đã tăng mạnh nhờ sự trỗi dậy của DeepSeek.
Singapore không sử dụng DeepSeek, nhưng đánh giá cao vì nó phản ánh sự chuyển dịch trong AI, từ trọng tâm phương Tây sang nhu cầu toàn cầu.
Josephine Teo cảnh báo rằng các mô hình LLM được huấn luyện trên ngữ liệu tiếng Anh sẽ gặp khó khăn khi áp dụng vào bối cảnh Đông Nam Á với hàng trăm ngôn ngữ khác nhau.
Singapore đã khởi xướng dự án SEA-LION – hệ thống mã nguồn mở tập trung vào đào tạo AI bằng tiếng Việt, tiếng Mã Lai và các ngôn ngữ khu vực.
Quan điểm chính sách của Singapore là trung lập giữa Mỹ và Trung, đặt lợi ích quốc gia lên hàng đầu. Josephine Teo mong muốn quan hệ giữa hai cường quốc này ấm lên nhưng khẳng định không thể “cầu được ước thấy”.
Singapore đang học hỏi từ cả hai bên: từ Mỹ là cách quản trị AI; từ Trung Quốc là ứng dụng AI sâu rộng trong công nghiệp và đời sống.
Một trọng tâm chiến lược của Singapore là mở rộng đào tạo AI cho mọi ngành nghề – không chỉ kỹ sư mà cả luật sư, bác sĩ, kế toán, công nhân sản xuất – nhằm tích hợp AI vào mọi lĩnh vực.
Mục tiêu là để mỗi cá nhân trong tổ chức "có thể sử dụng AI hiệu quả và tạo ra giá trị thực tế", theo lời bà Teo tại hội nghị Fortune Brainstorm AI Singapore.

📌 Singapore đánh giá cao sự xuất hiện của các mô hình AI giá rẻ như DeepSeek vì giúp quốc gia nhỏ và doanh nghiệp tiếp cận công nghệ tiên tiến mà không lệ thuộc vào phương Tây. Bộ trưởng Josephine Teo khẳng định cần AI phù hợp ngôn ngữ Đông Nam Á, đồng thời thúc đẩy đào tạo kỹ năng AI cho mọi ngành nghề để đưa công nghệ này vào đời sống thực tiễn.

https://fortune.com/asia/2025/07/22/china-deepseek-singapore-digital-minister-josephine-teo-brainstorm-ai/

Cheaper AI like China’s DeepSeek are ‘very welcome,’ says Singapore’s digital minister Josephine Teo

By Nicholas GordonAsia Editor

July 22, 2025, 1:14 PM EDT

Josephine Teo pointed out that DeepSeek was part of a broader shift in AI to reflect needs outside of the West. “We know that large language models that are trained primarily on a Western corpus...will have difficulties being applied in the Southeast Asian context."

Graham Uden for Fortune

Singapore will welcome cheaper models like China’s DeepSeek, says the country’s digital minister, as smaller countries and companies try to explore how to get the benefits from AI without paying exorbitant prices for the tech.

Companies considering the use of AI inevitably have to consider cost, Josephine Teo, Singapore’s minister for digital development and information, explained at the Fortune Brainstorm AI Singapore conference on Tuesday

“From the perspective of bringing down costs, innovations such as DeepSeek are very welcome,” she said.

DeepSeek’s AI models helped spark a trillion-dollar sell-off in U.S. financial markets earlier this year. The Chinese AI startup proved it was possible to create AI models that matched the performance of leading-edge models, while using significantly fewer resources for training. Tech shares plunged as investors reassessed whether massive capital spending in pursuit of the AI arms race was truly worth it. While U.S. Big Tech has recovered from the DeepSeek selloff, companies like Microsoft and Amazon are still reportedly reassessing their spending on data centers.

In turn, DeepSeek sparked a surge in Chinese tech stocks, as investors tried to buy into AI developments in the world’s second-largest economy.

Teo clarified that Singapore wasn’t using DeepSeek in its own AI development plans, but pointed out it was part of a broader shift in this new technology to reflect global needs.

“We know that large language models that are trained primarily on a Western corpus, primarily on perhaps English as the language, will have difficulties being applied in the Southeast Asian context,” she explained.

AI that’s been trained on English, and not one of Southeast Asia’s hundreds of different languages, “will perhaps not meet the requirements of Singapore as well as our neighboring countries.”

Singapore has helped to foster the Southeast Asian Languages in One Network (SEA-LION) project, a group of open-source large language models that are trained on a number of regional languages like Vietnamese and Malay.

The U.S., China … and Singapore

Singaporean officials have tried to chart a middle path between Washington and Beijing, expressing a wish to not align with either side. The Southeast Asian country is a security ally of the U.S., but also maintains close cultural and economic ties to China.

“Singapore’s consistent approach is to act in a way that meets our own interests,” Teo said. “We would certainly hope that relationships between the two giants can warm up to a much greater extent, but it’s not something that we can wish to happen, and it will happen.”

Still, Teo said Singapore can learn from both the U.S. and China when it comes to AI. For example, Teo cited AI governance as one area of cooperation with Washington.

China, on the other hand, offers examples of how AI can be used. ”We noticed that China’s industrial foundation is so broad and deep that the applications of AI could be very interesting to watch and learn from,” she said.

And Singapore, too, will also grow AI skills at home. On Tuesday, Teo described how the country plans to expand the country’s pool of “AI practitioners” to “people who are in the professions”: lawyers, doctors, accountants, and manufacturing workers.

“They [will] acquire this facility with using AI, and then they can demonstrate how they can create more value for their organizations, “ she said.

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-07-22 17:34:55

Kimi K2: AI mở của Moonshot AI (Trung Quốc) đạt 145.000 lượt tải chỉ trong vài ngày

Kimi K2, mô hình AI mới từ Moonshot AI (hậu thuẫn bởi Alibaba), đã đạt 145.000 lượt tải chỉ trong vài ngày kể từ ngày ra mắt 11/07 – tăng gần gấp đôi so với 76.000 lượt tải trước đó vào thứ Sáu.
Kimi K2 sử dụng kiến trúc mixture-of-experts (MOE), gồm 1.000 tỷ tham số tổng thể nhưng chỉ kích hoạt 32 tỷ tham số mỗi lần suy luận, giúp tối ưu hóa chi phí và tốc độ.
Được cung cấp miễn phí thông qua app và trình duyệt, Kimi K2 nổi bật khi so với GPT của OpenAI và Claude của Anthropic – đều yêu cầu phí đăng ký hàng tháng.
MOE chia mô hình thành các “chuyên gia” riêng biệt, giúp giảm mạnh chi phí huấn luyện và cải thiện hiệu suất.
Henning Steier (CMO tại Bluespace Ventures) đánh giá Kimi K2 như một “bước ngoặt chiến lược” nhờ khả năng tiết kiệm chi phí tính toán đáng kể.
Cựu kỹ sư AI của Anthropic, Pietro Schirano, gọi Kimi K2 là mô hình đầu tiên ông tin dùng trong sản phẩm thực tế kể từ Claude 3.5 Sonnet, đặc biệt ấn tượng với khả năng gọi công cụ và quản lý chu trình agent.
Moonshot nhấn mạnh trí thông minh agent tiên tiến của Kimi K2: có thể tạo phân tích lương kèm đồ họa, tổ chức chuyến đi từ tìm kiếm đến đặt chỗ, lịch và email.
Nathan Lambert Allen nhận xét khoảng cách giữa AI nguồn mở Trung Quốc và phương Tây đang ngày càng nới rộng, với các mô hình từ Moonshot, DeepSeek và Vidu vượt trội hơn.
Jensen Huang – CEO Nvidia – tại hội chợ chuỗi cung ứng Bắc Kinh, ca ngợi AI nguồn mở Trung Quốc là “rất mạnh mẽ”, và đặc biệt nhấn mạnh Kimi là “một trong những mô hình suy luận tốt nhất thế giới”.
Báo cáo từ nền tảng đánh giá LMArena (thuộc Đại học UC Berkeley) hôm thứ Sáu xếp Kimi K2 vào nhóm mô hình AI nguồn mở hàng đầu toàn cầu, vượt qua cả Gemma 3-72B (Google) và Llama 4-Maverick (Meta).
LMArena nhận xét Kimi K2 gây ấn tượng nhờ phản hồi “hài hước nhưng không máy móc”, tạo sức hút lớn với người dùng.

📌 Kimi K2 từ Moonshot AI đã thu hút 145.000 lượt tải chỉ sau vài ngày nhờ hiệu suất vượt trội và miễn phí truy cập. Mô hình này có 1.000 tỷ tham số và sử dụng kiến trúc MOE giúp giảm chi phí tính toán. Các chuyên gia khen ngợi khả năng agentic và ứng dụng thực tế cao. Kimi K2 được xếp vào top mô hình AI nguồn mở tốt nhất toàn cầu, thể hiện bước tiến lớn của Trung Quốc trong cuộc đua AI.

https://www.scmp.com/tech/tech-trends/article/3319100/moonshots-kimi-k2-soars-popularity-amid-experts-praise-chinese-ai-developments

Moonshot’s Kimi K2 soars in popularity amid experts’ praise for Chinese AI developments

Downloads of the model double in a few days, an analyst says gap between open-source AI development in China and the US is ‘getting wider’

Danielle Popov

Published: 2:08pm, 22 Jul 2025

The launch of the Kimi K2 artificial intelligence model by Alibaba Group Holding-backed Moonshot AI has drawn rapid uptake amid praise from industry experts.

Downloads of Kimi K2, launched on July 11, doubled to 145,000 on Monday from 76,000 on Friday, according to AI and machine-learning developer platform Hugging Face.

The large language model (LLM) from the Beijing-based start-up uses a mixture-of-experts (MOE) architecture and boasts 1 trillion total parameters, with 32 billion activated per inference. For comparison, DeepSeek-V3 has 671 billion parameters.

“While companies like OpenAI invest hundreds of millions in compute resources, Moonshot’s Kimi K2 shows a more cost-efficient approach to training and inference – highlighting a possible turning point in AI development strategy,” said Henning Steier, Bluespace Ventures’ chief marketing officer, in a LinkedIn post.

The model is free via Kimi’s app and browser interface, unlike OpenAI’s GPT and Anthropic’s Claude, which charge monthly subscriptions.

MOE is a machine-learning approach that divides an AI model into separate sub-networks, or experts – each focused on a subset of the input data – to jointly perform a task. This is said to greatly reduce computation costs during training and achieve faster performance during inference.

Moonshot said it developed Kimi K2 at a fraction of the cost typically spent by larger AI firms.

Pietro Schirano, a former AI engineer at Anthropic and a founder of Magic Path, praised Kimi K2, saying in a post on X that the model was “so good at tool calling and agentic loops and knowing when to stop”.

“It’s the first model I feel comfortable using in production since [Anthropic’s] Claude 3.5 Sonnet,” he said.

Kimi K2’s “advanced agentic intelligence” allowed it to understand how to use tools and get practical work done, according to Moonshot. It could, for example, generate a detailed salary analysis with statistical visualisations and interactive web pages, or plan a trip to a concert by managing tasks across search engines, calendars, email, flights, and hotel and restaurant reservations, the company said.

Jensen Huang praises China AI progress

Nvidia CEO Jensen Huang praises China’s AI progress following chip sales approval

“The gap between the open model in the West and the open model in China is getting wider,” said Nathan Lambert Allen, a researcher at the AI Research Institute, reacting to Kimi K2 in his newsletter. He added that Chinese companies like DeepSeek, Moonshot AI, and Vidu had introduced “much more useful models” than their counterparts in the West.

At the China International Supply Chain Expo in Beijing on Thursday, Nvidia founder and CEO Jensen Huang praised the significant potential of open-source AI, describing it as “very powerful”.

He also commended Moonshot’s Kimi specifically, referring to it as “one of the best reasoning models in the world today”, alongside Alibaba’s Qwen. Alibaba owns the Post.

Kimi K2 was recognised as one of the world’s top open-source AI models in a report on Friday from LMArena, an American benchmarking platform developed by researchers from the University of California, Berkeley. Kimi K2 – along with MiniMax M1, Qwen 3, and a variant of DeepSeek R1 – outperformed notable competitors like Google’s Gemma 3-72B and Meta Platforms’ Llama 4-Maverick.

On its X account on Friday, LMArena said Kimi K2 was “one of the most impressive” open-source LLMs to date, adding that it was gaining popularity because its user responses were “humorous without sounding too robotic”.

Không có file đính kèm.

Nguồn tham khảo

AI so sánh AI mở-nguồn mở 2025-07-22 06:32:55

So sánh Kimi K2 và Llama 4 - hai mô hình AI nguồn mở hàng đầu năm 2025

Kimi K2 của Moonshot AI và Llama 4 của Meta đều là các mô hình ngôn ngữ lớn (LLM) dựa trên kiến trúc Mixture-of-Experts (MoE) với khả năng xử lý cao cấp và mở mã nguồn.
Thông số chính: Kimi K2 có 1 nghìn tỷ tham số tổng thể, 32 tỷ tham số hoạt động, và hỗ trợ ngữ cảnh lên tới 128.000 token. Trong khi đó, Llama 4 có ba biến thể: Scout (17B params, 10M token), Maverick (17B, 1M token) và Behemoth (đang huấn luyện, dự kiến 288B active params).
Khả năng xử lý hình ảnh (đa phương thức): Llama 4 có khả năng xử lý hình ảnh tốt hơn về hình thức, nhưng thường "bịa" nội dung (hallucinate). Trong khi đó, Kimi K2 trung thực hơn khi không hiểu rõ ảnh.
Tác vụ đại diện (Agentic Behavior & Tool Use): Kimi K2 vượt trội trong việc thực hiện chuỗi hành động như truy xuất dữ liệu, lập trình, tích hợp API – điều mà Llama 4 gần như không hỗ trợ.
Đa ngôn ngữ: Llama 4 hỗ trợ hơn 200 ngôn ngữ, phù hợp với dịch thuật và ngôn ngữ chéo. Kimi K2 cũng hiệu quả, nhưng nổi bật hơn ở tiếng Trung và tiếng Anh.
Benchmark nổi bật:
- GPQA-Diamond (Vật lý): Kimi K2 75,1%, Llama 4: 67,7%
- AIME (Toán học): Kimi K2 49,5%, Llama 4: 25,2%
- SWE-bench (lập trình sản xuất): Kimi K2 65,8%, Llama 4: 18,4%
- MMLU-Pro (kiến thức tổng hợp): Llama 4 79,4% (Kimi không có kết quả)
Chi phí và khả năng triển khai: Kimi K2 là nguồn mở hoàn toàn, có thể tự triển khai với chi phí thấp hơn đáng kể ($0,15-$0,60/1M token đầu vào, $2,50/1M token đầu ra). Llama 4 có giấy phép cộng đồng, hạn chế tùy khu vực.
Tổng kết bài đánh giá: Kimi K2 chiến thắng ở các hạng mục như coding, tác vụ đại diện, chi phí và minh bạch. Llama 4 phù hợp hơn cho xử lý ngôn ngữ, ngữ cảnh cực dài, và nghiên cứu thị giác.
Cả hai mô hình đều so sánh được với GPT-4o, Gemini 2.0 Flash – dù mỗi cái có ưu và nhược riêng. Chọn mô hình tùy vào mục đích sử dụng cụ thể của bạn.

📌 Kimi K2 vượt Llama 4 ở các tiêu chí quan trọng như khả năng tác tử, lập trình và chi phí, trong khi Llama 4 nổi bật ở ngôn ngữ, khả năng đa phương thức và xử lý văn bản dài. Kimi K2 là lựa chọn tối ưu cho nhà phát triển yêu cầu tính mở rộng, còn Llama 4 phù hợp hơn với nghiên cứu và xử lý ngôn ngữ tự nhiên đa nhiệm. Cả hai đều là những bước tiến mạnh mẽ trong lĩnh vực AI nguồn mở năm 2025.

https://www.analyticsvidhya.com/blog/2025/07/kimi-k2-vs-llama-4/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-07-20 08:36:08

Trung Quốc đang định hình lại cuộc đua AI toàn cầu nhờ chiến lược nguồn mở

Ngày 9/7/2024, OpenAI chặn truy cập từ Trung Quốc vào các mô hình GPT, trong khi nhiều quốc gia khác vẫn được sử dụng, khiến cộng đồng AI Trung Quốc bị coi thường.
Đến cuối năm 2024 và đầu 2025, Trung Quốc phản công mạnh mẽ với việc phát hành các mô hình nguồn mở từ DeepSeek (V3, R1) và Alibaba (Qwen), mở ra làn sóng phát triển AI toàn cầu không phụ thuộc vào các hệ thống đóng từ Mỹ.
DeepSeek R1-0528 hiện là mô hình nguồn mở có điểm số cao nhất trong bảng xếp hạng của Artificial Analysis (68 điểm), chỉ xếp sau một số mô hình độc quyền của OpenAI, xAI và Google.
Theo dữ liệu từ OpenRouter (13/7/2025), DeepSeek chiếm 24,3% thị phần toàn cầu, vượt xa OpenAI (5,1%) và Meta (3,3%), chỉ đứng sau Google (36,4%). Moonshot AI và Qwen cũng lọt top 10 nhà phát triển phổ biến nhất.
Qwen của Alibaba hiện là hệ sinh thái AI nguồn mở lớn nhất thế giới với hơn 100.000 mô hình phái sinh, vượt qua cộng đồng Llama của Meta.
DeepSeek được tích hợp trong các sản phẩm gia dụng của Midea, Haier, và cả các nền tảng AI của Amazon, Nvidia. Một ví dụ: tai nghe thông minh của Oleap tích hợp DeepSeek giúp giảm 80% chi phí tóm tắt nội dung họp.
Chiến lược nguồn mở giúp Trung Quốc xây dựng cộng đồng nhà phát triển quốc tế, tăng tốc độ đổi mới và tạo niềm tin toàn cầu. Các công ty như Baidu, MiniMax cũng đang chuyển dần từ mô hình đóng sang mở.
Trung Quốc hiện có 9,4 triệu lập trình viên, đóng góp 17 trong số 100 dự án nguồn mở hàng đầu thế giới, phản ánh chiến lược quốc gia ưu tiên nguồn mở theo kế hoạch 5 năm lần thứ 14.
Tuy nhiên, một số quốc gia như Đức, Ý, Hàn Quốc, Úc cấm hoặc hạn chế sử dụng chatbot DeepSeek vì lo ngại dữ liệu. Các chuyên gia cho rằng đây là động thái chính trị, không dựa trên kỹ thuật.

📌
DeepSeek và Alibaba đang đưa AI nguồn mở Trung Quốc vươn tầm toàn cầu. Với DeepSeek R1 đạt 68 điểm, chiếm 24,3% thị phần OpenRouter và Qwen có hơn 100.000 mô hình phái sinh, Trung Quốc đang dẫn đầu về AI mở. Chiến lược mở giúp giảm chi phí, thúc đẩy cộng đồng và thách thức trực tiếp các "ông lớn" công nghệ Mỹ.

https://www.scmp.com/tech/big-tech/article/3318747/how-chinas-open-source-ai-helping-deepseek-alibaba-take-silicon-valley

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-07-20 08:31:04

Dù Mỹ chi hàng trăm tỷ USD vào GPU, Trung Quốc đang vượt mặt với các mô hình AI nguồn mở

OpenAI hứa ra mắt mô hình nguồn mở đầu tiên từ sau GPT-2 nhưng tiếp tục trì hoãn vì lý do an toàn. CEO Sam Altman cho biết "khi đã công bố trọng số, không thể thu hồi lại".
Trong khi đó, Trung Quốc đã nhanh chóng chiếm ưu thế với hàng loạt mô hình nguồn mở lớn và mạnh vượt trội.
DeepSeek R1, ra mắt đầu 2025, có 671 tỷ tham số với kiến trúc mixture-of-experts (MoE), hiệu quả vượt cả Llama 3.1 405B về tốc độ và khả năng suy luận. Trọng số và tài liệu kỹ thuật đầy đủ đều được công khai.
Tác động rõ rệt: chỉ vài tuần sau, các nhà phát triển phương Tây bắt đầu sao chép phương pháp và cải tiến mô hình của mình.
Alibaba tung ra các mô hình mới như QwQ, Qwen3-235B-A22B và 30B-A3B; MiniMax (Thượng Hải) ra mắt M1 với 456 tỷ tham số, hỗ trợ 1 triệu token và cơ chế attention mới; Baidu công khai dòng Ernie từ 47B đến 424B tham số; Huawei cũng tung Pangu dù vướng nghi vấn gian lận.
Đặc biệt nhất, tháng 7, Moonshot AI công bố Kimi 2 – mô hình MoE có 1.000 tỷ tham số, vượt mặt mọi mô hình nguồn mở phương Tây. Dù tuyên bố chưa được kiểm chứng độc lập, việc công khai mô hình cỡ này là một bước tiến vượt bậc.
Trái lại, Mỹ vẫn chủ yếu giữ mô hình sau tường API: Meta có Llama 4 (400B) nhưng phản hồi kém; Google ra Gemma3 (27B); IBM và Microsoft cũng chỉ phát hành các mô hình nhỏ hoặc chuyên biệt. Grok-3 của xAI đến nay vẫn chưa có mặt chính thức.
Trong khi Mỹ vật lộn giữa hứa hẹn và trì hoãn, Trung Quốc tận dụng cơ hội, bất chấp các lệnh cấm xuất khẩu chip của Mỹ.

📌
Trung Quốc đang dẫn đầu nguồn mở AI năm 2025 với các mô hình như DeepSeek R1 (671B) và Kimi 2 (1.000B), công khai cả trọng số lẫn tài liệu. Trong khi đó, Mỹ dù đổ hàng trăm tỷ USD vào GPU, vẫn trì hoãn hoặc giữ kín các mô hình. Cục diện AI nguồn mở toàn cầu đang xoay chuyển rõ rệt về phía Đông.

https://www.theregister.com/2025/07/19/openai_us_china/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-07-16 08:33:06

Meta có thể đang từ bỏ chiến lược nguồn mở với mô hình AI Behemoth

Theo New York Times, các lãnh đạo tại Superintelligence Lab mới của Meta đang thảo luận về việc từ bỏ mô hình nguồn mở mạnh nhất của công ty – Behemoth, để tập trung vào mô hình đóng.
Mô hình Behemoth đã được huấn luyện xong, nhưng bị trì hoãn phát hành do hiệu suất nội bộ không như kỳ vọng; sau khi Superintelligence Lab ra mắt, quá trình thử nghiệm Behemoth cũng tạm dừng.
Meta cho biết vẫn sẽ tiếp tục phát hành các mô hình nguồn mở, nhưng không cam kết mọi thứ đều được chia sẻ, nhấn mạnh sẽ phát triển kết hợp cả mô hình mở và đóng.
Nếu Meta chuyển sang ưu tiên mô hình đóng, điều này sẽ đảo ngược triết lý nguồn mở từng được Mark Zuckerberg dùng để phân biệt với đối thủ như OpenAI.
Zuckerberg từng chỉ trích việc OpenAI ngày càng đóng sau khi hợp tác với Microsoft, và đặt Llama như “lá cờ đầu” khẳng định cam kết với AI nguồn mở.
Tuy nhiên, Meta đang phải đối mặt áp lực thương mại hóa AI mạnh hơn bao giờ hết khi đã đầu tư hàng tỷ USD vào:
- Tuyển dụng nhân sự với lương 9 con số
- Xây dựng trung tâm dữ liệu
- Theo đuổi mục tiêu phát triển AGI (trí tuệ siêu việt nhân tạo)
Dù sở hữu một trong những phòng nghiên cứu AI hàng đầu thế giới, Meta vẫn tụt sau OpenAI, Anthropic, DeepMind và xAI về thương mại hóa sản phẩm.
Nếu Behemoth bị “giam lỏng”, cộng đồng nguồn mở AI sẽ chịu cú sốc lớn, vì Meta là nguồn cung chính của các mô hình như Llama, được nhiều startup và nhà nghiên cứu dùng để tinh chỉnh và thử nghiệm.
Thế lực nguồn mở có thể chững lại, tạo điều kiện để các hệ sinh thái AI đóng kiểm soát thị trường, đồng thời dồn các nỗ lực nguồn mở về tay cộng đồng nhỏ lẻ.
Một hậu quả lớn khác: Trung Quốc – quốc gia đang thúc đẩy AI nguồn mở qua DeepSeek, Moonshot AI – có thể tận dụng khoảng trống Meta để mở rộng ảnh hưởng toàn cầu trong lĩnh vực AI.

📌 Meta đang cân nhắc từ bỏ Behemoth – mô hình AI nguồn mở mạnh nhất – để chuyển sang phát triển mô hình đóng, nhằm tăng kiểm soát và thương mại hóa hiệu quả hơn. Nếu thành hiện thực, điều này sẽ làm chậm đà phát triển AI nguồn mở toàn cầu, tạo lợi thế cho các hệ thống độc quyền và tiềm ẩn nguy cơ giúp Trung Quốc vượt lên trong cuộc đua AI quốc tế.

https://techcrunch.com/2025/07/14/meta-built-its-ai-reputation-on-openness-that-may-be-changing/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2025-07-16 07:59:29

Mistral ra mắt Voxtral: Mô hình AI âm thanh nguồn mở rẻ hơn 50% và “đánh bại” Whisper

Mistral, startup AI hàng đầu châu Âu, vừa công bố Voxtral, mô hình AI âm thanh nguồn mở đầu tiên của hãng, hướng tới triển khai thực tế trong doanh nghiệp.
Voxtral được thiết kế để hiểu và tương tác qua lời nói, sử dụng backbone ngôn ngữ là Mistral Small 3.1, cho phép phân tích nội dung âm thanh lên đến 40 phút.
Mistral tuyên bố Voxtral là mô hình nguồn mở đầu tiên đủ mạnh để sử dụng trong sản phẩm thực tế, giúp giảm chi phí mà vẫn đảm bảo chất lượng, với giá chỉ bằng dưới 50% so với các giải pháp hiện có.
3 phiên bản được công bố:
- Voxtral Small: 24 tỷ tham số, phù hợp cho triển khai ở quy mô doanh nghiệp, cạnh tranh với GPT-4o-mini, ElevenLabs Scribe và Gemini 2.5 Flash.
- Voxtral Mini: 3 tỷ tham số, tối ưu cho triển khai cục bộ hoặc trên thiết bị edge.
- Voxtral Mini Transcribe: phiên bản siêu nhẹ, chỉ dùng cho phiên âm, vượt OpenAI Whisper với chi phí chưa đến 0,001 USD/phút (~24 đồng/phút).
Voxtral hỗ trợ đa ngôn ngữ: tiếng Anh, Tây Ban Nha, Pháp, Bồ Đào Nha, Hindi, Đức, Hà Lan, và Ý.
Ngoài việc phiên âm, Voxtral còn cho phép tương tác thời gian thực như: tạo tóm tắt, trả lời câu hỏi về nội dung âm thanh, hoặc thực hiện hành động dựa trên lệnh thoại như gọi API hay chạy mã.
Mô hình có thể dùng thử miễn phí trên Hugging Face hoặc chatbot Le Chat của Mistral. API có sẵn để tích hợp vào ứng dụng.
Việc ra mắt Voxtral diễn ra chỉ một tháng sau khi Mistral công bố Magistral, dòng mô hình lập luận theo từng bước nhằm tăng độ tin cậy.
Mistral hiện đang đàm phán huy động đến 1 tỷ USD từ các quỹ như MGX (Abu Dhabi) để mở rộng năng lực phát triển AI nguồn mở.

📌 Voxtral đánh dấu bước đột phá mới trong lĩnh vực AI âm thanh nguồn mở với khả năng hiểu lời nói, hỗ trợ đa ngôn ngữ và giá chỉ từ 0,001 USD/phút. Mô hình 24 tỷ tham số Voxtral Small sánh ngang GPT-4o-mini, trong khi bản Mini Transcribe còn vượt cả Whisper về hiệu năng – Mistral đang củng cố vị thế là lá cờ đầu AI nguồn mở tại châu Âu.

https://techcrunch.com/2025/07/15/mistral-releases-voxtral-its-first-open-source-ai-audio-model/

Không có file đính kèm.

Nguồn tham khảo

AI models AI mở-nguồn mở 2025-07-16 07:47:37

Kimi K2 của Trung Quốc đang khuấy động giới AI nguồn mở - thời khắc DeepSeek tiếp theo?

Kimi K2 là mô hình AI mới từ Moonshot AI (Trung Quốc), sử dụng kiến trúc sparse mixture-of-experts (MoE) với 1.000 tỷ tham số tổng thể, trong đó 32 tỷ tham số hoạt động cho mỗi truy vấn.
Chạy với tốc độ 185 tokens/giây trên GroqCloud và hỗ trợ cửa sổ ngữ cảnh lên tới 1.28.000 tokens – phù hợp với các tác vụ phức tạp, yêu cầu truy xuất dài hạn.
Kimi K2 hiện đứng thứ #14 trên OpenRouter, vượt qua cả GPT-4.1 và Grok 4.
Trên các benchmark:
- SWE-bench Verified: 65,8% (cao hơn GPT-4.1 – 54,6%)
- LiveCodeBench: 53,7% (cao hơn DeepSeek V3 – 46,9% và GPT-4.1 – 44,7%)
- Math-500: 97,4% (GPT-4.1 đạt 92,4%)
- Short-Story Creative Writing: 8,56 (vượt o3-pro – 8,44)
Kimi K2 có hai biến thể: Base (cho nghiên cứu và tinh chỉnh) và Instruct (dành cho chatbot và agent).
Sử dụng dữ liệu tổng hợp từ hệ thống ACEBench để huấn luyện khả năng sử dụng công cụ trong hàng trăm lĩnh vực.
Có thể tự động thực hiện chuỗi tác vụ như gọi API, viết code, debug, tạo đồ thị, xây web mà không cần hướng dẫn từng bước.
Giá API rẻ hơn Claude Sonnet 4 khoảng 80–90% dựa trên chi phí mỗi token.
Là mô hình không chuyên về lập luận, nhưng lại thể hiện khả năng sáng tạo vượt trội, gây chú ý trong cộng đồng AI.
Ethan Mollick cho biết Kimi K2 đôi khi tạo ra thông tin sai lệch đáng tin, chưa phù hợp với các tác vụ yêu cầu chính xác cao.
OpenAI được cho là đã trì hoãn phát hành mô hình nguồn mở của mình ngay sau khi Kimi K2 ra mắt, do bất ngờ trước sức mạnh của mô hình Trung Quốc này.
DeepSeek R2 – đối thủ tiềm năng tiếp theo – hiện chưa phát hành, bị chậm do các hạn chế xuất khẩu chip NVIDIA H20 từ Mỹ sang Trung Quốc.

📌 Kimi K2 là bước tiến vượt bậc của AI nguồn mở Trung Quốc, với 1.000 tỷ tham số và hiệu năng ấn tượng trên nhiều benchmark như SWE-bench (65,8%) và Math-500 (97,4%). Với giá rẻ hơn 90% so với Claude Sonnet và khả năng xử lý công cụ mạnh mẽ, Kimi K2 đang trở thành mối đe dọa thực sự cho các ông lớn AI toàn cầu.

https://analyticsindiamag.com/global-tech/chinas-kimi-k2-could-be-the-next-deepseek-moment/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI market 2025-07-14 08:51:11

DeepSeek gây sốc như Sputnik: Trung Quốc chính thức thách thức Mỹ cả phần mềm lẫn phần cứng AI

DeepSeek – một công ty AI của Trung Quốc – đã gây chấn động thế giới, được ví như khoảnh khắc “Sputnik” hiện đại, khi công bố mô hình AI mạnh ngang các đối thủ Mỹ nhưng chi phí rẻ hơn nhiều.
Công ty có trụ sở tại Hàng Châu và Bắc Kinh, nay trở thành “quốc bảo công nghệ” của Trung Quốc, sánh vai cùng CATL (pin) và BYD (xe điện).
Theo JPMorgan, Trung Quốc đã bước vào “giai đoạn bùng nổ” trong công nghệ AI, robot công nghiệp và tự động hóa, nhờ hệ sinh thái kỹ thuật coi công nghệ là hạ tầng quốc gia, được thúc đẩy bởi chính phủ và nguồn nhân lực dồi dào.
DeepSeek không chỉ là một sản phẩm kỹ thuật, mà còn mở ra kỳ vọng tích hợp AI với sản xuất thông minh, xe tự lái và robot – bù đắp các vấn đề lớn của Trung Quốc như già hóa dân số, giảm đầu tư và giảm phát.
Từ góc độ thị trường, MSCI Trung Quốc đã tăng 18,5% tính đến ngày 10/7, cho thấy tác động tâm lý tích cực nhờ thành công của DeepSeek.
Dù có nghi ngờ về mức độ “tư nhân hóa” của DeepSeek, các nhà đầu tư nội địa trong lĩnh vực quỹ định lượng cho biết đã biết đến công ty này từ hơn 2 năm trước.
Sự kiện DeepSeek diễn ra trong bối cảnh Trung Quốc đang rút ngắn khoảng cách với Mỹ trong các lĩnh vực như công nghệ pin, năng lượng sạch, xe tự lái, điện hạt nhân và thậm chí cả điện hạt nhân nhiệt hạch.
Trung Quốc có lợi thế lớn về nhân tài và dữ liệu: có 535 trường đại học đào tạo chuyên ngành AI và sản xuất nhiều bằng sáng chế AI nhất thế giới. Hai trung tâm nghiên cứu hàng đầu nằm tại Hợp Phì và Trịnh Châu.
Theo Morgan Stanley, DeepSeek đã làm lung lay niềm tin rằng chỉ có Mỹ mới thống trị được cả phần mềm lẫn phần cứng – giờ Trung Quốc cũng tuyên bố có thể làm được như vậy.

📌 DeepSeek bất ngờ nổi lên như “quốc bảo AI” của Trung Quốc, gây choáng váng toàn cầu khi đạt hiệu suất ngang đối thủ Mỹ nhưng chi phí thấp hơn. Với hệ sinh thái AI gồm 535 trường đại học, dữ liệu khổng lồ và nhân tài nội địa, DeepSeek mở ra kỷ nguyên mới nơi Trung Quốc có thể cạnh tranh cả phần cứng lẫn phần mềm với Mỹ.

https://asia.nikkei.com/Opinion/DeepSeek-represents-a-shift-in-the-global-tech-narrative

DeepSeek represents a shift in the global tech narrative

China may now rival the US in both software and hardware capabilities

Henny Sender

July 14, 2025 05:05 JST

Seemingly overnight, DeepSeek has become China's national champion, along with companies like battery maker CATL and EV producer BYD. © Reuters

Henny Sender is the founder and managing partner of Apsara Advisory, a strategic consultancy for financial services companies. She was previously a managing director at the investment company BlackRock.

The DeepSeek moment has been likened to the Sputnik moment of the 1950s, when technologists in the U.S. -- the world's most powerful nation -- were jolted by an unexpected challenge to their dominance from the Soviet Union, a rival whose accomplishments they had long dismissed.

Similarly a few months ago, when the world learned that there was a quant firm with offices in Hangzhou and Beijing that had come up with an AI model offering comparable performance at a fraction of the cost of its American rivals, the news was greeted with comparable astonishment.

Yet the emergence of DeepSeek may ultimately prove even more catalytic, given its impact on market psychology and potential effect on economic activity. It is one thing to come up with awesome apps such as WeChat. It speaks to a whole different level of ambition on the part of entrepreneurs to come up with an AI model built on less capital intensive and less powerful hardware -- yet with smarter software than predecessors.

Seemingly overnight, DeepSeek has become China's national champion, along with companies like battery maker CATL and EV producer BYD.

"The emergence of DeepSeek has been a pivotal moment for AI in China," noted Joyce Chang, head of research for JPMorgan in New York. "The China tech space (AI, industrial robots, automation) has entered a breakout stage after decades of development, driven by engineering talents and government support that fostered an ecosystem treating tech as infrastructure."

The integration between homegrown AI and the real economy is expected to be transformative. By integrating AI with manufacturing, DeepSeek potentially can "accelerate industrial transformation and smart manufacturing, autonomous cars, and the use of robots, compensating for declining productivity and robotics in the process," according to Morgan Stanley.

Indeed, widespread adoption of the AI that DeepSeek facilitates can go some way to compensating for the three troubling D's of the country; demographics, deleveraging and deflation.

To be sure, it isn't clear whether DeepSeek is a one-off or portends breakthroughs in other spheres where big databases and a more forgiving regulatory environment may be advantageous. If DeepSeek proved that deep pockets matter less than was generally assumed for AI, can that hold true in other spheres as well?

That, though, is a question for tomorrow. For now, the euphoria has made Chinese markets among the top five best performers year to date (MSCI was up 18.5% year to date as of July 10) and given a powerful boost to confidence.

The mood at the China Development Forum at the end of March was gloomy, in anticipation of Donald Trump's tariffs and stiffer sanctions. By contrast, that of Summer Davos in Tianjin in the last week in June was far more upbeat, in part thanks to a more convincing embrace of tech entrepreneurs on Beijing's part after years of tension with companies such as Alibaba and Didi.

At a time of rising geopolitical competition, moreover, "The United States' lead has narrowed," Morgan Stanley's tech analysts said. "DeepSeek has shifted the global narrative by challenging the perceived U.S. dominance of AI. In the past, Japan could boast superior proficiency in hardware. India could assert that its IT services and software lead the world. Only the Americans could assert unrivalled mastery of both skills. Now China can say the same."

The BYD Yangwang U9 electric supercar. DeepSeek comes at a time when China is attempting to narrow the gap with the U.S. on a host of technologies. © Reuters

In addition, DeepSeek comes at a time when China is attempting to narrow the gap with the U.S. on a host of other technologies and areas of research, including biotech, quantum computing and semiconductors, even as it narrows the gap in other fields, such as autonomous vehicles, battery technology and renewables.

China already has a competitive edge in technology that has both civilian and military applications, such as drones. And while the U.S. cuts back on government funding for climate initiatives, Beijing is attempting to come up with breakthroughs in nuclear fusion as part of its clean energy initiatives, thereby solving the issue of how to safely dispose of radioactive waste in nuclear power plants.

In retrospect, there should perhaps have been less surprise. As the Morgan Stanley analysts note, DeepSeek is part of a deep ecosystem on the mainland built on talent, cheap energy and extensive data. There are 535 universities in the country offering AI-related majors and the country produces more AI-related patents than any other nation. About 28% of all top-rated researchers in the field sit in two university centers, in Hefei and Zhengzhou.

That human capital matters far more than just money. There was considerable skepticism outside China that only private capital was behind Deepseek, though local investors in quant funds such as DeepSeek say they knew about the company's existence for at least two years.

The Magnificent Seven in the U.S. have had a magnificent market run, with few alternatives elsewhere to challenge them. That is now changing.

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở OpenAI ChatGPT 2025-07-13 07:05:18

OpenAI sắp công bố LLM mở đầu tiên kể từ năm 2019, có thể làm lung lay quan hệ độc quyền với Microsoft

OpenAI chuẩn bị ra mắt mô hình ngôn ngữ open-weight đầu tiên kể từ GPT-2 (2019), đánh dấu bước ngoặt lớn sau thỏa thuận độc quyền với Microsoft năm 2023.
Mô hình mới có tính chất giống “o3 mini” với khả năng suy luận mạnh mẽ, và sẽ được triển khai trên nhiều nền tảng như Azure, Hugging Face và các nhà cung cấp đám mây lớn khác.
Điều này giảm sự phụ thuộc vào hạ tầng của Microsoft, đe dọa đến doanh thu của Azure OpenAI vì các khách hàng có thể chọn mô hình miễn phí thay vì trả phí cao hơn cho các API độc quyền.
Thỏa thuận hiện tại giữa hai bên cho phép Microsoft hưởng 20% doanh thu từ ChatGPT và API, và chia ngược 20% doanh thu Azure OpenAI cho OpenAI. Tuy nhiên, mô hình mở này ngoài tầm kiểm soát của Microsoft.
Mô hình mới có thể công bố ngay trong tháng 7, tùy thuộc vào các yếu tố như năng lực máy chủ, tiến độ kỹ thuật và đối thủ cạnh tranh.
Việc mô hình này gọi là “mở” sẽ tạo tranh cãi, do chưa rõ OpenAI có công khai mã nguồn, dữ liệu huấn luyện hay không. Tính “nguồn mở” thật sự sẽ phụ thuộc vào loại giấy phép được gắn kèm.
Trong bối cảnh này, Microsoft đang đối mặt khủng hoảng nhân sự nghiêm trọng: sa thải 15.000 nhân viên chỉ trong 2 tháng, tác động đến Xbox, marketing và cả các studio game lớn.
Bên cạnh đó, Microsoft bị chỉ trích khi khuyên nhân viên bị sa thải dùng ChatGPT để “vượt qua cú sốc”.
Các tin tức khác:
- Windows 11 vượt Windows 10 về thị phần, đạt 52%.
- Microsoft Edge cải thiện tốc độ tải trang, nhưng vẫn lép vế trước Chrome.
- Xbox 360 hiển thị quảng cáo Xbox Series X/S nhưng không thể nhấp vào.
- Microsoft đầu tư 23 triệu USD cùng OpenAI và Anthropic để đào tạo giáo viên về AI.

📌 OpenAI chuẩn bị ra mắt mô hình ngôn ngữ mở đầu tiên sau 6 năm, có thể phá vỡ cấu trúc độc quyền với Microsoft và đẩy Azure vào thế khó. Trong khi đó, Microsoft đang sa thải hàng loạt nhân viên và đối mặt với sự bất mãn nội bộ, tạo ra cơn địa chấn kép cho chiến lược AI của tập đoàn này.

https://www.theverge.com/notepad-microsoft-newsletter/702848/openai-open-language-model-o3-mini-notepad

Không có file đính kèm.

Nguồn tham khảo

AI nghiên cứu AI mở-nguồn mở 2025-07-10 08:47:55

Trung Quốc ra mắt MemOS – hệ điều hành trí nhớ đầu tiên cho AI: học như con người

Một nhóm nghiên cứu từ Đại học Giao thông Thượng Hải và Đại học Chiết Giang vừa công bố MemOS, hệ điều hành trí nhớ đầu tiên dành cho AI, với khả năng cho phép AI ghi nhớ lâu dài và học hỏi liên tục như con người.
MemOS coi trí nhớ là một tài nguyên tính toán cấp hệ thống, giống như CPU hay bộ lưu trữ, có thể được quản lý, chia sẻ và tiến hóa theo thời gian.
Hệ thống đã vượt trội so với các phương pháp hiện tại, tăng 159% hiệu suất trong nhiệm vụ suy luận theo thời gian so với hệ thống nhớ của OpenAI, khi thử nghiệm trên bộ kiểm thử LOCOMO.
Khác với các hệ thống AI hiện tại vốn "quên sạch" sau mỗi phiên làm việc, MemOS giải quyết triệt để vấn đề "bộ nhớ rời rạc" bằng MemCubes – đơn vị trí nhớ chuẩn hóa chứa kiến thức, trạng thái kích hoạt hoặc thay đổi tham số mô hình, có thể di chuyển và tái cấu trúc theo thời gian.
Cấu trúc 3 lớp của MemOS gồm: lớp giao diện API, lớp vận hành quản lý vòng đời trí nhớ và lớp hạ tầng lưu trữ – tương tự hệ điều hành máy tính truyền thống.
MemScheduler trong MemOS có khả năng điều phối linh hoạt các loại trí nhớ khác nhau, từ tạm thời tới vĩnh viễn, giúp giảm tới 94% độ trễ thời gian phản hồi token đầu tiên trong một số cấu hình.
Hệ thống hỗ trợ di chuyển trí nhớ giữa các nền tảng AI, giúp AI có thể ghi nhớ và tiếp tục xử lý thông tin trên các thiết bị, ứng dụng khác nhau – phá vỡ "hòn đảo trí nhớ" gây phiền toái cho người dùng.
Một tiềm năng khác là “chợ trí nhớ”, nơi các chuyên gia có thể đóng gói tri thức chuyên ngành thành mô-đun trí nhớ có thể bán hoặc chia sẻ – ví dụ: bác sĩ chia sẻ lộ trình chẩn đoán bệnh hiếm cho sinh viên y khoa qua AI.
MemOS là dự án nguồn mở, đã phát hành trên GitHub, tương thích với Linux và đang mở rộng hỗ trợ cho Windows/macOS; có tích hợp với nền tảng AI lớn như HuggingFace, OpenAI, Ollama.
Các ông lớn AI như OpenAI, Google, Anthropic hiện cũng đang chạy đua giải quyết bài toán trí nhớ, nhưng vẫn chưa đạt tính hệ thống như MemOS.
Nhóm nghiên cứu khẳng định tương lai AI không nằm ở mô hình lớn hơn, mà ở thiết kế kiến trúc tốt hơn, giống như việc MemOS chuyển hướng từ huấn luyện mô hình sang "huấn luyện trí nhớ" – mem-training.

📌 MemOS – hệ điều hành trí nhớ cho AI – đánh dấu bước ngoặt trong khả năng AI học hỏi và ghi nhớ như con người. Với hiệu suất vượt OpenAI 159%, giảm 94% độ trễ và khả năng chia sẻ trí nhớ giữa nền tảng, MemOS mở ra thời kỳ AI có trạng thái liên tục, ứng dụng bền vững trong doanh nghiệp và thị trường "chợ trí nhớ" mới. Với mã nguồn mở và thiết kế chuẩn hóa, đây là đột phá kiến trúc, không chỉ là cải tiến hiệu năng.

https://venturebeat.com/ai/chinese-researchers-unveil-memos-the-first-memory-operating-system-that-gives-ai-human-like-recall/

Không có file đính kèm.

Nguồn tham khảo

AI models AI mở-nguồn mở 2025-07-09 08:30:03

Sakana AI ra mắt thuật toán cho phép nhiều LLM như ChatGPT và Gemini hợp tác giải quyết bài toán phức tạp

Sakana AI – startup trí tuệ nhân tạo đến từ Nhật Bản – vừa giới thiệu thuật toán AB-MCTS (Adaptive Branching Monte Carlo Tree Search), cho phép nhiều mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini, DeepSeek hợp tác cùng lúc để giải quyết một vấn đề phức tạp.
Thay vì để từng mô hình làm việc đơn lẻ, AB-MCTS kết hợp các chiến lược tìm kiếm theo chiều sâu (tinh chỉnh lời giải hiện có) và chiều rộng (thử nghiệm hướng giải mới), với mô hình xác suất tự động điều hướng phương án tối ưu.
Phiên bản Multi-LLM AB-MCTS chọn linh hoạt mô hình phù hợp nhất theo tình huống, cho phép từng AI phát huy điểm mạnh riêng theo từng giai đoạn giải quyết vấn đề.
Thử nghiệm trên benchmark khó ARC-AGI-2 cho thấy Multi-LLM AB-MCTS vượt trội hơn bất kỳ mô hình đơn lẻ nào, thậm chí trong một số trường hợp, chỉ tổ hợp nhiều mô hình mới đưa ra được đáp án chính xác.
Tuy nhiên, hệ thống hiện chỉ đạt khoảng 30% tỷ lệ thành công khi được phép đoán không giới hạn, và giảm mạnh trong các thiết lập chính thức giới hạn số lần gửi đáp án.
Sakana AI lên kế hoạch phát triển thêm mô hình đánh giá gợi ý nhằm chọn lọc tự động các phương án tốt nhất, hoặc kết hợp với hệ thống AI có thể “thảo luận” để ra quyết định chung.
Thuật toán AB-MCTS đã được phát hành mã nguồn mở dưới tên TreeQuest, nhằm khuyến khích cộng đồng phát triển và ứng dụng rộng rãi.
Trước đó, Sakana AI cũng công bố Darwin-Gödel Machine – một agent tự tái cấu trúc mã Python thông qua vòng tiến hóa nhanh. Sau 80 vòng, độ chính xác trên SWE-bench tăng từ 20% lên 50%, còn điểm Polyglot tăng gấp đôi lên 30,7%, vượt mặt nhiều mô hình nguồn mở hàng đầu.
Hồi tháng 6, agent ALE của Sakana AI sử dụng Gemini 2.5 Pro và thuật toán cổ điển như simulated annealing, beam search… đã lọt top 21 trong giải thi lập trình AtCoder, vượt hơn 1.000 người tham dự.
Những thành tựu này kế thừa từ nghiên cứu Transformer² về học liên tục cho mô hình ngôn ngữ lớn hồi tháng 1. Chuỗi tiến bộ này thể hiện rõ triết lý của Sakana AI: evolve (tiến hóa mã), iterate (lặp giải pháp), và dùng agent mô-đun lấy cảm hứng từ tự nhiên để giải bài toán từng cần cả đội kỹ sư.

📌 Sakana AI đang định hình tương lai AI cộng tác với thuật toán AB-MCTS – cho phép nhiều mô hình như ChatGPT và Gemini cùng làm việc, giúp nâng tỷ lệ thành công lên 30% trên ARC-AGI-2. Kết hợp cùng TreeQuest, Darwin-Gödel Machine và agent ALE, công ty Nhật Bản này đang tạo ra hệ sinh thái AI mô-đun có khả năng tự tiến hóa, học liên tục và giải quyết các bài toán mà trước đây chỉ có con người mới xử lý được.

https://the-decoder.com/sakana-ais-new-algorithm-lets-large-language-models-work-together-to-solve-complex-problems/

Không có file đính kèm.

Nguồn tham khảo

AI robotics-auto-agents AI mở-nguồn mở AI thành công-thất bại 2025-07-08 08:09:12

Capital One triển khai hệ thống AI đa tác tử vận hành thực tế, cải thiện 55% hiệu quả khách hàng

Capital One vừa triển khai một hệ thống AI đa tác tử (multi-agent AI) ở quy mô sản xuất nhằm hỗ trợ quy trình mua xe, đánh dấu bước tiến lớn trong việc ứng dụng AI doanh nghiệp theo cách có thể mở rộng và bảo mật.
Hệ thống gồm nhiều tác tử AI phối hợp: một tác tử trò chuyện với khách hàng, một lập kế hoạch hành động dựa trên chính sách nội bộ, một tác tử đánh giá kế hoạch, và một tác tử giải thích/ xác nhận kế hoạch với khách hàng.
Đây là cách tiếp cận mô phỏng suy luận đa bước của con người, đặc biệt quan trọng trong môi trường có nhiều quy định như ngân hàng.
Tác tử đánh giá (evaluator agent) là điểm đột phá: có nhiệm vụ kiểm tra tính tuân thủ theo chính sách Capital One, mô phỏng hậu quả nếu kế hoạch được thực thi, và yêu cầu sửa lại nếu không đạt chuẩn.
Hệ thống được thiết kế động và lặp, không chỉ dựa vào LLM như lớp giao diện nhận dạng ý định, mà là một kiến trúc linh hoạt tương tác sâu với hệ thống nội bộ và API.
Ứng dụng đầu tiên là Chat Concierge, phục vụ cả khách hàng và đại lý xe, giúp xác định lead khách hàng chất lượng cao hơn, tăng chỉ số tương tác lên tới 55%.
Về kỹ thuật, Capital One sử dụng mô hình mở (open-weights) thay vì đóng để tùy biến theo dữ liệu độc quyền, kết hợp công cụ nội bộ, mã nguồn mở, và hạ tầng NVIDIA như Triton Server và TensorRT LLM.
Công ty duy trì sự an toàn dữ liệu và tuân thủ bằng cách đưa ra khung quản lý rủi ro chặt chẽ, cho phép AI chỉ truy cập dữ liệu và công cụ được cấp quyền như một nhân viên mới.
Quá trình xây dựng hệ thống không dựa vào tiền lệ, do đó cần nhiều vòng thử nghiệm, giám sát con người và cải tiến lặp đi lặp lại trước khi triển khai ra thị trường.
Capital One đang mở rộng hệ thống này cho các trường hợp khác trong tổ chức, nhưng theo cách “có kiểm soát, bài bản và bền vững”.

📌 Capital One tiên phong triển khai AI đa tác tử vận hành thực tế, với ứng dụng đầu tiên tăng 55% hiệu quả tương tác khách hàng trong mảng xe hơi. Hệ thống này gồm nhiều tác tử phối hợp và tự đánh giá, được xây dựng dựa trên mô hình mở và tích hợp công nghệ NVIDIA, đồng thời đáp ứng nghiêm ngặt yêu cầu về bảo mật, tuân thủ và kiểm soát rủi ro trong ngành tài chính.

https://venturebeat.com/ai/how-capital-one-built-production-multi-agent-ai-workflows-to-power-enterprise-use-cases/

Không có file đính kèm.

Nguồn tham khảo

AI market AI mở-nguồn mở 2025-07-05 07:18:10

Dự án American DeepSeek đặt mục tiêu xây dựng một mô hình AI mã nguồn mở nhằm khôi phục vị thế công nghệ của Mỹ

Dự án American DeepSeek được Nathan Lambert đề xuất nhằm tạo ra mô hình AI mã nguồn mở hoàn toàn đầu tiên của Mỹ đạt đến quy mô và hiệu suất như các mô hình tiên phong hiện nay trong vòng 2 năm.
Mục tiêu chính của dự án là khôi phục vị thế công nghệ AI của Mỹ và ngăn chặn sự thống trị ngày càng tăng của các mô hình AI mã nguồn mở đến từ Trung Quốc.
Trung Quốc đang dẫn đầu trong cộng đồng AI mã nguồn mở với nhiều mô hình và bộ dữ liệu nổi bật trên đa phương tiện (text, video, robotics...). Điều này một phần nhờ vào lượng nhà nghiên cứu AI đông đảo, văn hóa chia sẻ mở và ít rào cản pháp lý nội địa.
Trong khi đó, các công ty lớn của Mỹ như Meta đang dần rút lui khỏi hướng tiếp cận mở vì chi phí và môi trường chính trị không còn thu hút nhân tài quốc tế như trước.
Dự án American DeepSeek hướng tới một mô hình mở hoàn toàn, không chỉ dừng lại ở việc chia sẻ trọng số (weights) mà còn gồm: dữ liệu huấn luyện, mã nguồn, log huấn luyện và toàn bộ quy trình ra quyết định.
Ước tính kinh phí cần thiết là từ 100 triệu đến 500 triệu USD để xây dựng mô hình có khả năng cạnh tranh với DeepSeek V3, Sonnet, Gemini Pro hoặc GPT-4 loại đầu tiên.
Nathan Lambert nhấn mạnh việc cần có hệ sinh thái mô hình mở đáng tin cậy, khi các mô hình Trung Quốc khó kiểm chứng độ an toàn và không chịu ràng buộc bởi pháp luật Hoa Kỳ về lạm dụng AI như deepfake hoặc dùng dữ liệu không có sự đồng thuận.
Tên gọi “American DeepSeek” được lấy cảm hứng từ mô hình DeepSeek của Trung Quốc – tổ chức đầu tiên phát hành mô hình AI mở hiệu suất cao – như một cách đánh dấu quyết tâm phục hồi khả năng dẫn đầu AI mã nguồn mở của Mỹ.
Thế hệ AI kế tiếp không chỉ là tăng kích thước mô hình mà chuyển hướng sang xây dựng các agent và hệ thống sử dụng AI linh hoạt, tận dụng khả năng tổng hợp của nhiều mô hình nhỏ thay vì chỉ tập trung vào hiệu suất đơn lẻ.
Cộng đồng mã nguồn mở cần chạm đến ngưỡng hiệu suất của các mô hình như Claude 4, R1, hoặc Sonnet để tạo nền tảng phát triển agent đa năng, bảo mật và linh hoạt hơn.
Lambert cho rằng các hệ thống AI đáng tin cậy không thể chỉ phụ thuộc vào doanh nghiệp tư nhân, và sự kiểm soát cần đến từ việc phổ biến mô hình mở, giống như cách điện được coi là hạ tầng công cộng.
Ông kết luận rằng chỉ khi có sự hợp tác cộng đồng, nguồn lực tính toán và các tổ chức tiên phong, Mỹ mới có thể giành lại vị thế về AI nguồn mở trước làn sóng tăng tốc đến từ Trung Quốc.

📌 Dự án American DeepSeek là lời kêu gọi tái chiếm vị trí dẫn đầu AI mã nguồn mở cho Mỹ trước khi Trung Quốc thống trị lĩnh vực này. Với mục tiêu xây dựng mô hình hoàn toàn mở, đạt hiệu suất GPT-4 trong 2 năm và cần từ 100 đến 500 triệu USD, dự án nhằm đảm bảo AI tương lai phải minh bạch, đáng tin cậy và không độc quyền bởi tập đoàn hay chính phủ.

https://www.interconnects.ai/p/the-american-deepseek-project

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-07-04 12:53:57

Trung Quốc đẩy mạnh cuộc đua AI nguồn mở khi Baidu và Huawei đồng loạt công bố mô hình AI lớn

Sau cú hích từ DeepSeek-R1 đầu năm nay, các ông lớn công nghệ Trung Quốc đồng loạt đẩy mạnh xu hướng AI nguồn mở, giúp giảm chi phí triển khai mô hình lớn từ 60–80% theo Commercial Times.
Ngày 30/6, cả Baidu và Huawei cùng công bố mở mã nguồn các mô hình AI quan trọng của họ.
Baidu ra mắt Ernie 4.5 trên nền tảng Hugging Face với 10 phiên bản mô hình khác nhau:
- Từ loại nhẹ chỉ có 0,3 tỷ tham số đến mô hình khổng lồ với 424 tỷ tham số.
- Động thái này đánh dấu sự thay đổi chiến lược quan trọng, khi CEO Robin Li từng tuyên bố sẽ không đi theo hướng mã nguồn mở.
Huawei công bố mở mã nguồn cho mô hình Pangu AI, bao gồm:
- Mô hình 7 tỷ tham số và mô hình Pangu Pro MoE 72 tỷ tham số.
- Tích hợp công nghệ suy luận tối ưu hóa cho dòng chip Ascend do Huawei phát triển nội địa.
Ngoài Baidu và Huawei, nhiều công ty Trung Quốc khác cũng gia nhập làn sóng AI nguồn mở như MiniMax, Alibaba và Moonshot AI.
DeepSeek, vào tháng 2/2025, từng tổ chức “Tuần lễ nguồn mở” khi mỗi ngày công bố một bộ mã mới, chia sẻ tiến độ nghiên cứu với cộng đồng toàn cầu.
Trái ngược với xu hướng này, các hãng AI Mỹ như OpenAI (GPT-1 đến GPT-4), Google, và Anthropic vẫn giữ mô hình phát triển đóng, không công bố mã nguồn.

📌

Trung Quốc đang dẫn đầu làn sóng AI nguồn mở khi Baidu tung Ernie 4.5 với 424 tỷ tham số và Huawei công bố Pangu Pro MoE tối ưu cho chip Ascend. Chi phí triển khai mô hình giảm tới 80%, trong khi các đối thủ Mỹ như OpenAI và Google vẫn giữ hướng đi độc quyền. Mô hình AI nguồn mở đang trở thành lợi thế chiến lược của Trung Quốc trong cuộc đua AI toàn cầu.

https://www.trendforce.com/news/news/2025/07/02/news-chinas-open-source-ai-push-expands-after-deepseek-as-baidu-and-huawei-launch-new-models/

Không có file đính kèm.

Nguồn tham khảo

AI models AI mở-nguồn mở 2025-07-04 09:22:06

DeepSeek R1T2 mới từ Đức nhanh gấp 2 lần bản gốc, vẫn giữ sức mạnh suy luận

DeepSeek-TNG R1T2 Chimera, một biến thể mới của mô hình DeepSeek R1-0528, vừa được phát hành bởi công ty tư vấn công nghệ TNG Technology Consulting GmbH tại Đức.
R1T2 sử dụng kỹ thuật Assembly-of-Experts (AoE) để kết hợp trọng số từ 3 mô hình mẹ: DeepSeek-R1-0528, DeepSeek-R1 và DeepSeek-V3-0324 – không cần huấn luyện lại.
Theo TNG, R1T2 nhanh hơn 200% so với R1-0528 và nhanh hơn 20% so với bản R1 ban đầu, đồng thời duy trì 90–92% hiệu suất suy luận của R1-0528 trên các bộ đo benchmark như AIME-24, AIME-25 và GPQA-Diamond.
Sự cải tiến về tốc độ đạt được nhờ R1T2 tạo ra phản hồi ngắn gọn hơn, chỉ dùng khoảng 40% số token so với R1-0528, giúp giảm thời gian suy luận và chi phí hạ tầng.
R1T2 phù hợp với môi trường doanh nghiệp yêu cầu suy luận chính xác nhưng phản hồi nhanh, chẳng hạn như các tác vụ logic, toán học, lập trình hoặc trả lời theo định dạng ngắn.
Mô hình được phát hành theo giấy phép MIT, hoàn toàn mã nguồn mở, cho phép doanh nghiệp tùy biến, triển khai nội bộ, hoặc sử dụng trong môi trường bị cách ly (air-gapped).
TNG không khuyến nghị dùng R1T2 cho các tác vụ phức tạp như function-calling hoặc tích hợp công cụ (tool use), nhưng có thể được cập nhật trong tương lai.
So với kiến trúc MoE (Mixture-of-Experts), AoE không chạy từng “expert” theo điều kiện, mà là kết hợp chuyên gia thông qua trọng số, giúp giữ hiệu suất mà không tốn tài nguyên tại thời điểm chạy.
TNG gọi cấu trúc mới là “Tri-Mind”, tận dụng điểm mạnh riêng biệt của từng mô hình gốc: sức mạnh suy luận từ R1-0528, tính tổ chức từ R1, và tính ngắn gọn theo chỉ dẫn từ V3-0324.
Công ty lưu ý doanh nghiệp tại EU cần đánh giá mức độ tuân thủ Đạo luật AI của Liên minh châu Âu (EU AI Act) sẽ có hiệu lực từ ngày 2/8/2025.
R1T2 hiện đã có sẵn trên Hugging Face tại huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera, cùng bài nghiên cứu chi tiết trên arXiv (2506.14794).
TNG – công ty thành lập từ năm 2001, trụ sở tại Bavaria, Đức – có hơn 900 nhân viên, nhiều người có bằng Tiến sĩ, và chuyên cung cấp giải pháp AI, DevOps và điện toán đám mây cho các doanh nghiệp lớn.

📌 DeepSeek R1T2 Chimera từ TNG mang lại tốc độ phản hồi nhanh gấp đôi, giảm 60% độ dài đầu ra nhưng vẫn giữ đến 92% sức mạnh suy luận của bản DeepSeek-R1-0528. Mã nguồn mở, dễ triển khai, tiết kiệm chi phí và phù hợp cho doanh nghiệp cần hiệu suất cao mà không cần độ dài văn bản dư thừa.

https://venturebeat.com/ai/holy-smokes-a-new-200-faster-deepseek-r1-0528-variant-appears-from-german-lab-tng-technology-consulting-gmbh/

Không có file đính kèm.

Nguồn tham khảo

AI pháp lý-quản trị-chủ quyền AI mở-nguồn mở 2025-07-02 01:34:22

AI nguồn mở và điện toán đám mây là chìa khóa giúp các quốc gia xây dựng AI chủ quyền

Tại hội nghị East Tech West 2025 ở Bangkok, các chuyên gia nhấn mạnh rằng AI nguồn mở và điện toán đám mây (cloud computing) là chìa khóa để các quốc gia xây dựng “AI chủ quyền” (sovereign AI) – khả năng kiểm soát công nghệ AI, dữ liệu và hạ tầng phù hợp với nhu cầu quốc gia.
Kasima Tharnpipitchai, Giám đốc chiến lược AI tại SCB 10X, cho rằng hầu hết các mô hình AI hiện tại như OpenAI và Anthropic đều dựa trên ngôn ngữ tiếng Anh, không phản ánh đầy đủ văn hóa và ngôn ngữ của các quốc gia khác.
ASEAN, với 700 triệu dân và 61% dưới 35 tuổi, cùng với 125.000 người dùng internet mới mỗi ngày, đang có lợi thế lớn để phát triển AI chủ quyền.
Jeff Johnson, Giám đốc AWS ASEAN, nhấn mạnh cloud và AI cần được dân chủ hóa để hỗ trợ mọi doanh nghiệp, từ startup đến tập đoàn lớn.
AI nguồn mở (open-source) giúp quốc gia xây dựng hệ sinh thái AI mạnh mẽ hơn, thay vì phụ thuộc vào các mô hình đóng. Ví dụ: DeepSeek của Trung Quốc và Llama của Meta đều hướng tới AI nguồn mở, dù còn một số hạn chế.
Cecily Ng (Databricks) cho biết open-source giúp doanh nghiệp và chính phủ có nhiều lựa chọn hơn, thúc đẩy tự chủ công nghệ.
Prem Pavan (Red Hat) bổ sung: ngoài ngôn ngữ, hiện nay quyền sở hữu phần cứng và hạ tầng tính toán nội địa (local compute) cũng là yếu tố then chốt.
Các nhà cung cấp cloud như AWS, Microsoft Azure, Tencent Cloud, AIS Cloud, True IDC đang hỗ trợ AI nội địa hóa tại Đông Nam Á với mô hình “pay for what you use”, giúp giảm chi phí và hạ thấp rào cản tiếp cận AI.
Theo UNCTAD, AI có thể đạt giá trị 4,8 nghìn tỷ USD vào năm 2033, nhưng nguy cơ bất bình đẳng trong phân bổ lợi ích AI là rất lớn nếu không phát triển hạ tầng AI chung và mô hình nguồn mở.

📌 AI nguồn mở và cloud là chìa khóa giúp ASEAN xây dựng AI chủ quyền, giảm phụ thuộc vào Big Tech, thúc đẩy sự tự chủ công nghệ và tăng trưởng bền vững trong kỷ nguyên AI trị giá 4,8 nghìn tỷ USD.

https://www.cnbc.com/2025/07/01/nations-build-sovereign-ai-open-source-models-cloud-computing.html

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI chips-hardware-compute 2025-07-02 01:14:55

Huawei chính thức mở nguồn 2 mô hình AI thuộc dòng Pangu cùng công nghệ suy luận

Ngày 1/7/2025, Huawei chính thức công bố mở nguồn hai mô hình AI thuộc dòng Pangu cùng công nghệ suy luận, nhằm tăng tốc xây dựng hệ sinh thái AI và mở rộng ra thị trường toàn cầu.
Động thái này được xem là chiến lược ứng phó với các lệnh hạn chế xuất khẩu chip AI từ Mỹ, đồng thời giúp Huawei củng cố hệ sinh thái phần cứng và phần mềm AI, theo nhận định của Paul Triolo, phó chủ tịch DGA-Albright Stonebridge Group.
Huawei định vị chiến lược dựa trên "Ascend ecosystem", tức hệ sinh thái xoay quanh dòng chip AI Ascend – đối thủ lớn nhất của Nvidia tại Trung Quốc trong bối cảnh Nvidia bị cấm bán sản phẩm cao cấp vào nước này.
Tương tự Google với Gemma, Huawei đang áp dụng chiến lược "chip-to-model": bán chip và phần cứng thông qua việc mở nguồn phần mềm AI.
Lian Jye Su, chuyên gia tại Omdia, cho biết mở nguồn mô hình Pangu giúp doanh nghiệp và nhà phát triển dễ dàng kiểm thử, tùy biến, từ đó thúc đẩy nhu cầu cho các sản phẩm khác của Huawei.
Không giống Baidu hay DeepSeek tập trung vào LLM đa năng, Huawei chọn hướng phát triển mô hình AI chuyên sâu theo ngành như chính phủ, tài chính và sản xuất.
Huawei mời cộng đồng quốc tế, bao gồm nhà nghiên cứu, doanh nghiệp và lập trình viên toàn cầu, sử dụng mô hình nguồn mở này để lấy phản hồi và cải thiện.
Marc Einstein, giám đốc nghiên cứu tại Counterpoint, nhận định chiến lược nguồn mở của Huawei sẽ rất phù hợp với các thị trường đang phát triển, nơi chi phí luôn là yếu tố then chốt.
Huawei cũng lên kế hoạch mang giải pháp trung tâm dữ liệu AI ra thị trường quốc tế, củng cố tham vọng mở rộng toàn cầu.

📌 Huawei chính thức mở nguồn mô hình AI Pangu và công nghệ suy luận để thúc đẩy hệ sinh thái chip Ascend, nhắm vào thị trường quốc tế, đặc biệt là các nước đang phát triển. Chiến lược "phần mềm mở, bán phần cứng" giúp Huawei đối đầu Nvidia và khẳng định vị thế AI toàn cầu.

https://www.cnbc.com/2025/07/01/huawei-open-sources-more-ai-models-grows-into-chinese-ai-juggernaut.html

Không có file đính kèm.

Nguồn tham khảo

AI market AI mở-nguồn mở 2025-06-30 01:06:40

Ngày 30/6/2025, Baidu sẽ chính thức phát hành mã nguồn mở AI Ernie, sự kiện lớn nhất của AI Trung Quốc kể từ DeepSeek

Ngày 30/6/2025, Baidu sẽ chính thức phát hành mã nguồn mở cho mô hình AI tạo sinh Ernie, bước đi lớn nhất của AI Trung Quốc kể từ khi DeepSeek ra mắt.
Baidu vốn trước đây ủng hộ mô hình độc quyền, nhưng sự thành công của DeepSeek đã buộc họ phải chuyển hướng sang mã nguồn mở.
AI chuyên gia nhận định:
- Sean Ren, ĐH Nam California, nhấn mạnh đây là sự kiện toàn cầu, đặt áp lực lên OpenAI và Anthropic trong việc phải biện minh cho mức giá cao và API đóng.
- Alec Strasmore, Epic Loot, ví Baidu như Costco tạo ra “AI Kirkland”, phá vỡ mô hình giá của các AI cao cấp.
Baidu tuyên bố mô hình ERNIE X1 có sức mạnh ngang DeepSeek R1 nhưng giá chỉ bằng một nửa.
CEO Robin Li nhấn mạnh mục tiêu là “giúp nhà phát triển toàn cầu xây dựng ứng dụng AI mà không lo chi phí hay khả năng của mô hình”.
Sự kiện này có thể thay đổi hoàn toàn cuộc chơi AI toàn cầu, từ cuộc đua tính năng sang cuộc chiến giá cả và quyền truy cập.
Một mặt, mã nguồn mở giúp giảm chi phí, cải thiện khả năng tùy chỉnh, nhưng mặt khác, các chuyên gia cảnh báo về:
- Rủi ro bảo mật dữ liệu, nhất là khi API gốc từ Trung Quốc được tích hợp vào các ứng dụng toàn cầu.
- Minh bạch về dữ liệu đào tạo, khi không rõ nguồn gốc, quyền sở hữu hay sự đồng ý của người cung cấp dữ liệu.
Sam Altman (OpenAI) thừa nhận áp lực từ phong trào mã nguồn mở và cũng đang chuẩn bị tung ra mô hình open source đầu tiên của OpenAI, dù bị trì hoãn.
Bất chấp lo ngại, Baidu đang tiến gần hơn tới mục tiêu phủ sóng AI Trung Quốc toàn cầu, từ phần mềm, ứng dụng đến API.

📌 Baidu chính thức phát hành AI Ernie mã nguồn mở vào ngày 30/6/2025. Mô hình này mạnh ngang DeepSeek nhưng chỉ bằng 50% chi phí, đặt OpenAI, Anthropic và cả DeepSeek vào thế phòng thủ. Đây không chỉ là cuộc cách mạng về công nghệ mà còn là cuộc chiến giá cả và chủ quyền AI toàn cầu, với cả cơ hội lẫn rủi ro về bảo mật, kiểm soát dữ liệu và quyền lực số.

https://www.cnbc.com/2025/06/29/china-biggest-ai-drop-since-deepseek-baidus-ernie-to-hit-market.html

Không có file đính kèm.

Nguồn tham khảo

AI benchmark AI mở-nguồn mở 2025-06-25 08:42:07

Công ty Trung Quốc HongShan Capital ra mắt Xbench – bộ tiêu chuẩn đánh giá AI liên tục cập nhật

Công ty đầu tư mạo hiểm HongShan Capital Group (HSG) Trung Quốc ra mắt Xbench – bộ benchmark AI liên tục cập nhật, ban đầu dùng để đánh giá các khoản đầu tư AI nội bộ, nay đã mở miễn phí một phần cho cộng đồng.
Xbench đánh giá AI theo hai hướng:
1. Kiểm tra học thuật như các benchmark truyền thống.
2. Đánh giá khả năng thực hiện công việc thực tế, giúp xác định giá trị kinh tế mà AI có thể tạo ra.
Về học thuật, Xbench gồm:
- Xbench-ScienceQA: Kiểm tra kiến thức STEM (Sinh hóa, Cơ học quỹ đạo,...) cấp sau đại học. Đề bài do sinh viên cao học soạn và giáo sư thẩm định. Điểm đánh giá dựa cả vào câu trả lời đúng và chuỗi lập luận.
- Xbench-DeepResearch: Kiểm tra khả năng nghiên cứu trên web tiếng Trung. 100 câu hỏi từ 10 chuyên gia trong các lĩnh vực như âm nhạc, lịch sử, tài chính, văn học. Ưu tiên câu trả lời có nguồn đa dạng, chính xác và khả năng thừa nhận khi thiếu dữ liệu.
Ví dụ một câu hỏi trong DeepResearch: “Có bao nhiêu thành phố ở ba tỉnh Tây Bắc Trung Quốc giáp biên giới nước ngoài?” Đáp án đúng là 12, nhưng chỉ 33% mô hình trả lời chính xác.
Ngoài học thuật, Xbench đánh giá năng lực thực tiễn qua các tác vụ như:
- Tuyển dụng: Yêu cầu AI tìm 5 kỹ sư pin đủ tiêu chuẩn và giải thích lý do chọn.
- Marketing: Ghép nối nhà quảng cáo với influencer phù hợp trong danh sách 800 người sáng tạo video ngắn.
Các lĩnh vực sắp ra mắt gồm tài chính, pháp lý, kế toán và thiết kế, nhưng bộ câu hỏi chưa được mở công khai.
Kết quả hiện tại:
- Học thuật: ChatGPT-o3 dẫn đầu, theo sau là ByteDance’s Doubao, Gemini 2.5 Pro, Claude Sonnet và Grok.
- Tuyển dụng: ChatGPT-o3 dẫn đầu, tiếp theo là Perplexity Search và Claude 3.5 Sonnet.
- Marketing: Claude, Grok và Gemini đạt hiệu suất cao.
Xbench cam kết cập nhật bộ câu hỏi mỗi quý, duy trì 50% công khai và 50% riêng tư.
Nhóm phát triển dự định bổ sung thêm tiêu chí như khả năng sáng tạo, khả năng hợp tác với các mô hình khác và độ tin cậy.
Zihan Zheng, trưởng nhóm nghiên cứu LiveCodeBench Pro tại NYU, nhận xét: “Xbench là một khởi đầu đầy hứa hẹn khi giải quyết được những tiêu chí khó định lượng trong đánh giá AI.”

📌 HongShan Capital tung Xbench – bộ benchmark AI đầu tiên cập nhật liên tục, đánh giá cả trí tuệ học thuật và giá trị thực tế. ChatGPT-o3 thống trị mọi bảng xếp hạng, trong khi Gemini, Claude, Doubao và Grok bám sát. Xbench mở miễn phí một phần, hứa hẹn thay đổi cách thế giới đo lường sức mạnh AI.

https://www.technologyreview.com/2025/06/23/1119190/chinese-changing-ai-benchmarks/

#MIT

Không có file đính kèm.

Nguồn tham khảo

STI AI mở-nguồn mở 2025-06-23 06:01:39

Tại sao Trung Quốc lại tặng miễn phí công nghệ của mình cho thế giới?

Trung Quốc từ vị trí ngoài rìa đã trở thành quốc gia có số lượng nhà phát triển phần mềm nguồn mở lớn thứ ba thế giới trên GitHub, chỉ sau Mỹ và Ấn Độ.
Các "ông lớn" công nghệ như Huawei, Alibaba, Baidu, Tencent không chỉ tài trợ mà còn đóng góp tích cực vào cộng đồng nguồn mở toàn cầu.
Trung Quốc đang dẫn đầu trong lĩnh vực AI tạo sinh nguồn mở với 12/15 mô hình AI hàng đầu hiện nay đến từ các công ty Trung Quốc như DeepSeek và Qwen của Alibaba.
Động lực lớn đến từ các lệnh trừng phạt công nghệ của Mỹ, khiến Trung Quốc phải tìm lối đi riêng bằng cách tăng cường sử dụng và phát triển công nghệ nguồn mở để giảm phụ thuộc phương Tây.
Huawei ra mắt OpenHarmony năm 2020, hệ điều hành mã nguồn mở thay thế Android, và đồng sáng lập Quỹ OpenAtom để điều phối phát triển mã nguồn mở.
AI là mũi nhọn mới với các công ty Trung Quốc coi mô hình mở là con đường ngắn nhất để thu hẹp khoảng cách công nghệ với Mỹ.
Xu hướng mở rộng sang phần cứng: startup Unitree công khai dữ liệu huấn luyện, thuật toán và thiết kế phần cứng robot. Trung Quốc cũng khuyến khích dùng RISC-V để tự chủ bán dẫn.
Mục tiêu dài hạn là giành lòng tin quốc tế qua sự minh bạch, nhưng các rào cản như lo ngại “cửa hậu”, bị Mỹ trừng phạt, hay chính sách kiểm soát trong nước khiến kết quả vẫn hạn chế.
Một số hội nghị quốc tế né tránh hợp tác công khai với Trung Quốc vì sợ rủi ro chính trị. GitHub từng bị giới hạn truy cập tại Trung Quốc, và nền tảng thay thế Gitee chịu kiểm duyệt nghiêm ngặt.
Luật kiểm duyệt AI yêu cầu mô hình không được “gây hại đến sự thống nhất và hài hòa xã hội”, khiến các nền tảng chia sẻ quốc tế như Hugging Face bị chặn tại Trung Quốc.

📌 Trung Quốc đang dẫn đầu làn sóng AI tạo sinh và nguồn mở, với 12/15 mô hình AI hàng đầu thuộc nước này, và các sáng kiến như OpenHarmony, RISC-V. Tuy nhiên, mâu thuẫn giữa tự do công nghệ và kiểm soát chính trị có thể làm chậm đà tiến, đặc biệt khi GitHub bị hạn chế, Gitee bị kiểm duyệt và luật AI bóp nghẹt sáng tạo.

https://www.economist.com/business/2025/06/17/why-china-is-giving-away-its-tech-for-free

Why China is giving away its tech for free

Its newfound fondness for open-source is awkward for an authoritarian state

Jun 17th 2025

Underpinning the digital economy is a deep foundation of open-source software, freely available for anyone to use. The majority of the world’s websites are run using Apache and Nginx, two open-source programs. Most computer servers are powered by Linux, another such program, which is also the basis of Google’s Android operating system. Kubernetes, a program widely used to manage cloud-computing workloads, is likewise open-source. The software is maintained and improved upon by a global community of developers.

China, which had long stood at the periphery of that community, has in recent years become an integral part of it. After America and India, it is now home to the largest group of developers on GitHub, the world’s biggest repository of open-source software. Chinese tech giants, including Alibaba, Baidu and Huawei, have become prolific open-source funders and contributors. China has been particularly active in the development of open-source artificial-intelligence (AI) models, including those from DeepSeek, an AI startup that shook the world in January when it released the cutting-edge models it had developed on a shoestring. According to Artificial Analysis, a website, 12 of the 15 leading open-source AI models are Chinese.

This newfound interest in open-source has been fuelled by America’s efforts to hobble its rival. Curbing China’s access to code that is readily available online is tricky for a foreign government. Ren Zhengfei, Huawei’s founder, told People’s Daily, a Communist Party mouthpiece, that American tech restrictions were nothing to fear since “there will be thousands of open-source software [programs] to meet the needs of the entire society.”

Yet the rise in China of open-source, which relies on transparency and decentralisation, is awkward for an authoritarian state. If the party’s patience with the approach fades, and it decides to exert control, that could hinder the course of innovation at home and make it harder to export Chinese technology abroad.

China’s open-source movement first gained traction in the mid-2010s. Richard Lin, co-founder of Kaiyuanshe, a local open-source advocacy group, recalls that most of the early adopters were developers who simply wanted free software. That changed when they realised that contributing to open-source projects could improve their job prospects. Big firms soon followed, with companies like Huawei backing open-source work to attract talent and cut costs by sharing technology.

Momentum gathered in 2019 when Huawei was, in effect, barred by America from using Android. That gave new urgency to efforts to cut reliance on Western technology. Open-source offered a faster way for Chinese tech firms to take existing code and build their own programs with help from the country’s vast community of developers. In 2020 Huawei launched OpenHarmony, a family of open-source operating systems for smartphones and other devices. It also joined others, including Alibaba, Baidu and Tencent, to establish the OpenAtom Foundation, a body dedicated to open-source development. China quickly became not just a big contributor to open-source programs, but also an early adopter of software. JD.com, an e-commerce firm, was among the first to deploy Kubernetes.

AI has lately given China’s open-source movement a further boost. Chinese companies, and the government, see open models as the quickest way to narrow the gap with America. DeepSeek’s models have generated the most interest, but Qwen, developed by Alibaba, is also highly rated, and Baidu has said it will soon open up the model behind its Ernie chatbot.

China’s enthusiasm for open technology is also extending to hardware. Unitree, a robotics startup based in Hangzhou, has made its training data, algorithms and hardware designs available for free, which may help it to shape global standards. Semiconductors offer another illustration. China is dependent on designs from Western chip firms. As part of its push for self-sufficiency, the government is urging firms to adopt RISC-V, an open chip architecture developed at the University of California, Berkeley.

Many Chinese firms also hope that more transparent technology will help them win acceptance for their products abroad. That may not happen. Huawei’s operating system has found few users elsewhere. Although some Western companies have been experimenting with DeepSeek’s models, an executive at a global enterprise-software firm says that many clients outside China will not touch the country’s AI tools. Some fear disruption from future American restrictions. Others worry about backdoors hidden in the code that might allow them to be spied on.

China’s open-source ambitions could be derailed in other ways, too. Qi Ning, a Chinese software engineer, points out that at international open-source conferences, attendees increasingly avoid naming Chinese collaborators, as they worry about reputational risk or political blowback.

Version control

America’s government may also make life difficult for Chinese open-source developers. Fearing nefarious meddling in the world’s code, it could seek to cut China off from GitHub, which is owned by Microsoft. Mr Qi says many Chinese developers worry about “access issues in the future”. China’s government has promoted Gitee, a domestic alternative. But few local coders use it. Last year some American lawmakers argued for restricting China’s access to RISC-V—though Andrea Gallo, he of the Swiss body that oversees the technology, contends that this is not feasible as it is a public standard, much like USB.

Yet it is China’s own government that poses the biggest threat to the country’s open-source experiment, despite supporting it in principle. In 2021 the government restricted access to GitHub, concerned that the platform could be used to host politically sensitive content. Developers quickly turned to virtual private networks (which mask a user’s location) to regain access, but the episode rattled many. In 2022 the government announced that all projects on Gitee would be subject to official review, and that coders would need to certify compliance with Chinese law.

A similar pattern is playing out in AI. Chinese law prohibits models from generating content that “damages the unity of the country and social harmony”. In 2023 Hugging Face, a Franco-American platform for sharing open-source AI models, became inaccessible from within China.

China’s open-source movement is organic, driven by developers and tech firms. The government has so far encouraged it because it serves its objectives of accelerating domestic innovation and reducing reliance on Western technology. If China’s leaders constrain the culture of freedom and experimentation on which open technology relies, however, they will limit its potential. ■

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-06-18 06:44:38

Evaristo.ai là chatbot đầu tiên cho tiếng Bồ Đào Nha dựa trên AI nguồn mở

Evaristo.ai là chatbot đầu tiên dành riêng cho tiếng Bồ Đào Nha, được phát triển bởi nhóm nghiên cứu NLX của Khoa Khoa học, Đại học Lisbon (FCUL) và công ty con OUSAR.AI.
Chatbot này kết hợp 6 mô hình ngôn ngữ AI tạo sinh nguồn mở gồm: Gervásio PT (Bồ Đào Nha), LLama (Mỹ), Qwen và DeepSeek (Trung Quốc), Mistral Small (Pháp), và Sabiá (Brazil).
Người dùng có thể chọn mô hình mình muốn khi trò chuyện, mỗi mô hình có khả năng phản hồi khác nhau, ví dụ như đưa ra công thức nấu ăn, lời bài hát fado hoặc lịch trình du lịch Bồ Đào Nha.
Tuy nhiên, các câu hỏi thực tế như "Donald Trump là ai?" hay "khi nào có cuộc bầu cử gần nhất ở Bồ Đào Nha?" đều cho kết quả không đồng nhất, tùy thuộc vào mô hình: có mô hình nói Trump là cựu tổng thống Mỹ, mô hình khác nói bầu cử gần nhất ở Bồ Đào Nha diễn ra năm 2022 hoặc 2024.
Mỗi mô hình được cảnh báo rõ ràng rằng kết quả có thể “không đúng, không chính xác hoặc không đầy đủ”.
Giáo sư António Branco từ FCUL giải thích rằng các mô hình có giới hạn về thời gian dữ liệu huấn luyện, có thể là đến năm 2022, 2023 hoặc 2024, gây ra sự thiếu cập nhật ở một số phản hồi.
Điểm mạnh của Evaristo.ai là hoàn toàn không dựa trên dịch vụ AI của bên thứ ba, không theo dõi người dùng, không bán hoặc sử dụng dữ liệu người dùng cho mục đích thương mại.
Chatbot này cũng là mô hình đầu tiên hỗ trợ đa mô hình (multi-model) dành riêng cho tiếng Bồ Đào Nha, được phát triển từ mã nguồn mở, đảm bảo tính minh bạch và quyền riêng tư.

📌 Evaristo.ai là chatbot tiếng Bồ Đào Nha đầu tiên sử dụng AI nguồn mở, cho phép tương tác với 6 mô hình khác nhau từ nhiều quốc gia. Dù có thể cung cấp nội dung giải trí hoặc hướng dẫn du lịch, chatbot vẫn còn hạn chế về khả năng trả lời sự kiện thời sự do dữ liệu huấn luyện chỉ cập nhật đến năm 2022–2024. Điểm nổi bật là không theo dõi người dùng và bảo mật toàn diện.

https://theportugalnews.com/news/2025-06-17/first-portuguese-language-chatbot-based-on-open-ai/98641

Không có file đính kèm.

Nguồn tham khảo

AI models AI mở-nguồn mở 2025-06-12 07:29:13

Meta ra mắt mô hình AI mới V-JEPA 2 với khả năng hiểu thế giới vật lý

Meta ra mắt mô hình AI mới có tên V-JEPA 2, mô hình "world model" nguồn mở có khả năng hiểu, dự đoán và lập kế hoạch trong môi trường thực tế 3D.
V-JEPA 2 không cần video hay dữ liệu nhãn lớn, mà học trong không gian trừu tượng "latent", giúp máy móc nhận biết chuyển động và tương tác vật thể, ví dụ: biết quả bóng sẽ rơi khỏi bàn.
Công nghệ này giúp robot giao hàng và xe tự lái xử lý tình huống thực tế tốt hơn, vì hiểu rõ môi trường xung quanh một cách giống như con người.
Mark Zuckerberg đang đặt AI làm trọng tâm chiến lược để cạnh tranh với OpenAI, Microsoft và Google.
Meta đầu tư mạnh tay với 14 tỷ USD vào công ty Scale AI và thuê CEO Alexandr Wang, một phần trong kế hoạch tăng tốc phát triển AI.
Yann LeCun, nhà khoa học trưởng về AI của Meta, mô tả "world model" như một "bản sao số trừu tượng của thực tại", giúp AI không chỉ hiểu mà còn dự đoán hậu quả và lên kế hoạch hành động.
Các "world model" như V-JEPA 2 đang là tâm điểm mới trong cộng đồng AI, khi các nhà nghiên cứu chuyển hướng khỏi mô hình ngôn ngữ lớn như ChatGPT.
Các ông lớn khác cũng chạy đua: Google DeepMind phát triển mô hình Genie mô phỏng game và môi trường 3D theo thời gian thực.
Startup World Labs do nhà nghiên cứu AI hàng đầu Fei-Fei Li sáng lập đã gọi vốn 230 triệu USD để tạo "large world models".

📌 Meta ra mắt V-JEPA 2, mô hình AI "world model" nguồn mở tiên tiến giúp robot và xe tự lái hiểu và dự đoán chuyển động trong thế giới vật lý. Đây là bước đột phá giúp Meta tăng tốc trong cuộc đua AI, đầu tư 14 tỷ USD và thu hút nhân sự cấp cao, hướng tới mục tiêu vượt mặt các đối thủ như OpenAI và Google.

https://www.cnbc.com/2025/06/11/meta-launches-ai-world-model-to-advance-robotics-self-driving-cars.html

Không có file đính kèm.

Nguồn tham khảo

AI data AI models AI mở-nguồn mở 2025-06-04 07:11:27

DeepSeek bị nghi ngờ sử dụng dữ liệu của Gemini (Google) để huấn luyện mô hình AI R1 mới nhất

DeepSeek ra mắt phiên bản cập nhật mô hình AI R1, nổi bật về toán học và lập trình nhưng không công bố nguồn dữ liệu huấn luyện.
Một nhà phát triển tại Melbourne, Sam Paech, tung bằng chứng cho thấy mô hình R1-0528 của DeepSeek có xu hướng dùng từ ngữ giống Gemini 2.5 Pro của Google, nghi ngờ đã dùng dữ liệu Gemini để huấn luyện.
Nhận định bổ sung từ nhà sáng lập SpeechMap cho rằng "dấu vết suy nghĩ" của R1-0528 giống Gemini.
DeepSeek từng bị nghi dùng dữ liệu từ các AI đối thủ: tháng 12/2024, mô hình DeepSeek V3 thường tự nhận là ChatGPT, có thể do dùng log chat của ChatGPT huấn luyện.
Đầu 2025, OpenAI thông báo phát hiện DeepSeek sử dụng kỹ thuật distillation để trích xuất dữ liệu từ mô hình mạnh hơn. Microsoft cũng phát hiện lượng lớn dữ liệu bị sao chép thông qua tài khoản nhà phát triển OpenAI nghi liên quan DeepSeek.
OpenAI cấm sử dụng kết quả đầu ra để xây dựng AI cạnh tranh, nhưng distillation lại phổ biến trong ngành.
Việc các mô hình AI dùng từ ngữ, biểu đạt giống nhau không hiếm do dữ liệu web ngày càng "ô nhiễm" bởi nội dung do AI tạo, khiến khó lọc và phân loại dữ liệu sạch cho huấn luyện.
Chuyên gia Nathan Lambert từ AI2 cho rằng DeepSeek có thể đã chủ động dùng API Gemini để tạo dữ liệu tổng hợp, do thiếu GPU nhưng có nguồn vốn lớn, tận dụng “nhiều tính toán hơn” theo cách riêng.
Để ngăn distillation, các công ty AI tăng cường bảo mật: OpenAI bắt buộc xác minh ID cho tổ chức truy cập mô hình nâng cao (không hỗ trợ Trung Quốc).
Google và Anthropic bắt đầu tóm tắt (summarize) các "trace" mô hình để gây khó khăn cho việc huấn luyện đối thủ từ dấu vết Gemini, bảo vệ lợi thế cạnh tranh.
Sự kiện hé lộ căng thẳng cạnh tranh, chạy đua công nghệ và nâng cấp bảo mật trong thế giới AI tạo sinh.

📌 DeepSeek bị nghi dùng dữ liệu Gemini (Google) để huấn luyện AI R1-0528 mới, với bằng chứng về dấu vết từ ngữ và cách vận hành tương đồng; từng có tiền sử dùng dữ liệu ChatGPT. Các ông lớn AI tăng cường bảo mật, OpenAI cấm distillation, Google/Anthropic tóm tắt trace để bảo vệ dữ liệu. Cạnh tranh AI toàn cầu ngày càng phức tạp và gay gắt.

https://techcrunch.com/2025/06/03/deepseek-may-have-used-googles-gemini-to-train-its-latest-model/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI models 2025-06-03 04:55:34

Deepseek R1-0528 khiến cả ngành AI chao đảo: Đối thủ nặng ký của GPT-4 và Google Gemini

Deepseek R1-0528 là mô hình AI nguồn mở mới, có hiệu suất ngang ngửa GPT-4 của OpenAI và Gemini 2.5 Pro của Google, nhưng với chi phí vận hành thấp hơn nhiều lần.
Benchmark cho thấy Deepseek vượt trội Gemini 2.5 Pro trong một số tác vụ và ngang bằng với GPT-4 (03) ở các bài test còn lại, mở ra cơ hội sử dụng AI mạnh cho các doanh nghiệp nhỏ và nhà nghiên cứu độc lập.
Mô hình sử dụng kỹ thuật như knowledge distillation và công cụ sinh học tin học để đạt hiệu suất cao với tài nguyên hạn chế.
Sự nổi lên của Deepseek cho thấy ranh giới ngày càng lớn giữa AI nguồn mở và AI độc quyền, đặt ra câu hỏi về tính bền vững của mô hình R&D đóng.
Deepseek thúc đẩy việc phổ cập AI, nhưng cũng làm dấy lên lo ngại đạo đức về việc sử dụng sai mục đích, bảo mật và động cơ chính trị trong phát triển AI.
Về địa chính trị, mô hình này là điểm nhấn trong cuộc cạnh tranh công nghệ Mỹ - Trung, với Trung Quốc có lợi thế sản xuất phần cứng và Mỹ tìm cách duy trì ưu thế qua chính sách ưu đãi R&D.
Deepseek được xem là cú sốc lớn đối với ngành, khi không chỉ đưa AI đến gần hơn với người dùng bình dân mà còn đe dọa cấu trúc quyền lực truyền thống trong ngành công nghệ.
Các bài báo liên quan đề cập đến các mô hình Deepseek R2 và V3, thậm chí có cáo buộc từ OpenAI về việc vi phạm sở hữu trí tuệ.
Deepseek R1-0528 không chỉ là mô hình AI mạnh với giá rẻ mà còn là biểu tượng của sự thay đổi trong hướng phát triển AI: từ độc quyền sang dân chủ hóa công nghệ.
Sự lựa chọn giữa AI nguồn mở và độc quyền không còn đơn thuần là kỹ thuật, mà còn liên quan đến chiến lược dài hạn về quyền truy cập, kiểm soát, và sáng tạo trong tương lai.

📌 Deepseek R1-0528 gây chấn động ngành AI với hiệu suất tương đương GPT-4 nhưng chi phí thấp hơn đáng kể, được hơn ủng hộ bởi kỹ thuật knowledge distillation. Mô hình góp phần mở rộng quyền tiếp cận AI, nhưng cũng làm dấy lên lo ngại về đạo đức và cạnh tranh Mỹ - Trung. Đây là thời khắc bùng nổ của AI nguồn mở, làm lung lay nền tảng quyền lực của Big Tech.

https://www.geeky-gadgets.com/deepseek-r1-0528-ai-model/

Không có file đính kèm.

Nguồn tham khảo

AI models AI mở-nguồn mở 2025-05-31 05:09:32

DeepSeek nâng cấp mô hình AI R1 giảm hiện tượng ảo giác

DeepSeek công bố bản nâng cấp mô hình AI R1-0528 vào ngày 29/5/2025, với khả năng vượt trội về toán học, lập trình và tư duy logic so với phiên bản cũ.
Mô hình mới được đánh giá có chiều sâu lý luận tốt hơn và hiệu suất tổng thể đang tiệm cận các mô hình hàng đầu như OpenAI’s o3 và Google Gemini 2.5 Pro.
R1 ban đầu ra mắt vào tháng 1/2025 đã gây chấn động giới công nghệ toàn cầu khi đạt thành tích ngang ngửa các hệ thống AI Mỹ lớn, nhưng với chi phí phát triển thấp hơn đáng kể.
Sự kiện này khiến nhà sáng lập Liang Wenfeng trở thành một biểu tượng công nghệ tại Trung Quốc và được mệnh danh là "kẻ điên công nghệ" đe dọa vị thế AI của Mỹ.
Tháng 2/2025, Liang được mời tham dự một sự kiện cấp cao do Chủ tịch Tập Cận Bình tổ chức, cùng với các doanh nhân hàng đầu như Jack Ma (Alibaba) và Pony Ma (Tencent).
Sự ra mắt của DeepSeek R1 đã kích thích làn sóng phản ứng trong ngành AI Trung Quốc, với hàng loạt tên tuổi như Alibaba, Zhipu AI, Xiaomi và Baidu nhanh chóng tung ra các mô hình cạnh tranh.
Nâng cấp R1 diễn ra chỉ vài giờ trước báo cáo tài chính của Nvidia, công ty sản xuất chip AI hàng đầu thế giới, từng bị ảnh hưởng khi R1 gốc ra mắt, nhưng đã phục hồi do nhu cầu đầu tư trung tâm dữ liệu AI vẫn mạnh mẽ.
DeepSeek đã đăng tải mô hình nâng cấp R1 trên nền tảng Hugging Face, một động thái nhấn mạnh tính minh bạch và đóng góp cho cộng đồng AI toàn cầu.

📌 DeepSeek gây ấn tượng mạnh với bản nâng cấp R1-0528, cải thiện logic, giảm ảo giác và tiệm cận các mô hình hàng đầu như o3 và Gemini 2.5 Pro. Nhà sáng lập Liang Wenfeng trở thành biểu tượng công nghệ mới của Trung Quốc. Động thái này làm dấy lên làn sóng cạnh tranh AI trong nước và ảnh hưởng đến các ông lớn như Nvidia.

https://www.bloomberg.com/news/articles/2025-05-29/deepseek-says-upgraded-model-reasons-better-hallucinates-less?srnd=phx-ai

DeepSeek cho biết mô hình nâng cấp lý luận tốt hơn, ít ảo giác hơn

Cập nhật của DeepSeek được công bố vào thứ Tư. Nhiếp ảnh gia: Andrey Rudakov/Bloomberg

Bởi Luz Ding 29 tháng 5, 2025 lúc 12:28 PM UTC

Điểm chính

Mô hình AI nâng cấp của DeepSeek, R1, có thể thực hiện toán học, lập trình và logic tổng quát tốt hơn phiên bản trước, đồng thời ít ảo giác hơn.
Mô hình mới có độ sâu lý luận lớn hơn và hiệu suất tổng thể hiện đang tiến gần đến các mô hình hàng đầu, như o3 của OpenAI và Gemini 2.5 Pro của Google.
Mô hình R1 gốc, phát hành vào tháng 1, đã làm choáng váng thế giới AI và biến người sáng lập DeepSeek Liang Wenfeng thành người nổi tiếng công nghệ, tượng trưng cho khả năng cạnh tranh của Trung Quốc với Thung lũng Silicon.

Startup Trung Quốc DeepSeek cho biết hôm thứ Năm rằng mô hình trí tuệ nhân tạo nâng cấp có thể thực hiện toán học, lập trình và logic tổng quát tốt hơn phiên bản trước, đồng thời ít ảo giác hơn.

Việc nâng cấp mô hình R1 - đã làm choáng váng thế giới AI vào tháng 1 bằng cách cạnh tranh với các hệ thống của những nhà phát triển Mỹ lớn hơn nhiều mặc dù được xây dựng với chi phí mà startup Trung Quốc này cho là chỉ bằng một phần nhỏ - có độ sâu lý luận lớn hơn, DeepSeek cho biết trong một bài đăng trên nền tảng mô hình AI Hugging Face.

"Hiệu suất tổng thể hiện đang tiến gần đến các mô hình hàng đầu," như o3 của OpenAI và Gemini 2.5 Pro của Google, công ty cho biết.

Startup có trụ sở tại Hàng Châu đã làm rung chuyển ngành công nghệ toàn cầu vào tháng 1 khi công bố R1 gốc, đặt dấu hỏi cho làn sóng chi tiêu toàn cầu vào tài nguyên tính toán AI và kích hoạt một loạt các bản phát hành AI trong số các công ty Trung Quốc từ Alibaba Group Holding Ltd. đến Zhipu AI.

Sự ra mắt của R1 đã biến người sáng lập DeepSeek Liang Wenfeng thành người nổi tiếng công nghệ và biểu tượng cho khả năng cạnh tranh của Trung Quốc với những công ty tốt nhất của Thung lũng Silicon. Vào tháng 2, Chủ tịch Tập Cận Bình đã mời Liang đến một cuộc tụ họp nổi bật với một số doanh nhân nổi tiếng nhất của đất nước. Người sáng lập trẻ tuổi ngồi cùng với những người như đồng sáng lập Alibaba Jack Ma và Pony Ma của Tencent Holdings Ltd.

Cập nhật R1 của DeepSeek, được gọi là DeepSeek-R1-0528, được công bố vào thứ Tư - chỉ vài giờ trước báo cáo tài chính mới nhất từ Nvidia Corp. có trụ sở tại Santa Clara, California, nhà sản xuất chip AI hàng đầu mà cổ phiếu bị tấn công mạnh ngay sau khi R1 phát hành. Vận may của Nvidia đã phục hồi kể từ đó, khi đầu tư trung tâm dữ liệu AI tiếp tục với tốc độ mạnh, và công ty Mỹ đưa ra dự báo vững chắc cho quý hiện tại.

DeepSeek Says Upgraded Model Reasons Better, Hallucinates Less

By Luz Ding

May 29, 2025 at 12:28 PM UTC

DeepSeek's upgraded AI model, R1, can perform mathematics, programming, and general logic better than the previous version, while hallucinating less.
Summary by Bloomberg AI
The new model features a greater depth of reasoning and its overall performance is now approaching that of leading models, such as OpenAI's o3 and Google's Gemini 2.5 Pro.
Summary by Bloomberg AI
The original R1 model, released in January, stunned the AI world and turned DeepSeek founder Liang Wenfeng into a tech celebrity, symbolizing China's ability to compete with Silicon Valley.

The Chinese startup DeepSeek said Thursday that its upgraded artificial-intelligence model can perform mathematics, programming, and general logic better than the previous version, while hallucinating less.

The upgrade to its R1 model — which stunned the AI world in January by rivaling the systems of much-larger US developers despite being built at what the Chinese startup said was a fraction of the cost — features a greater depth of reasoning, DeepSeek said in a post on the AI model platform Hugging Face.

“Its overall performance is now approaching that of leading models,” such as OpenAI’s o3 and Google’s Gemini 2.5 Pro, the company said.

The Hangzhou-based startup rocked the global tech industry in January when it unveiled the original R1, throwing into question the worldwide flood of spending on AI computational resources and touching off a flurry of AI releases among Chinese players from Alibaba Group Holding Ltd. to Zhipu AI.

The debut of R1 turned DeepSeek founder Liang Wenfeng into a tech celebrity and a symbol of China’s ability to compete with the best of Silicon Valley. In February, President Xi Jinping invited Liang to a high-profile gathering with some of the country’s most prominent entrepreneurs. The young founder was seated among the likes of Alibaba co-founder Jack Ma and Tencent Holdings Ltd.’s Pony Ma.

DeepSeek’s update to R1, known as DeepSeek-R1-0528, was announced on Wednesday — just hours before the latest financial report from Santa Clara, California-based Nvidia Corp., the leading maker of AI chips whose shares were pummeled in the immediate wake of R1’s release. Nvidia’s fortunes have recovered since, as AI data center investment has continued at a strong pace, and the US company offered a solid forecast for the current quarter.

Không có file đính kèm.

Nguồn tham khảo

AI robotics-auto-agents AI mở-nguồn mở AI cybersecurity 2025-05-31 04:43:13

AI coding agents có thể hủy diệt phần mềm nguồn mở

AI coding agents có khả năng gây ra một cuộc khủng hoảng bảo mật toàn cầu khi chỉ cần một dòng mã độc được chèn vào mà không ai phát hiện.
Tác giả thử nghiệm AI Jules của Google để thêm tính năng cho một dự án trong chưa đến 30 phút – ban đầu gây ấn tượng mạnh, sau lại khiến ông lo sợ về tính dễ bị lợi dụng.
Giả thuyết về một AI độc hại có khả năng chỉnh sửa mã nguồn giống như Google Jules, OpenAI Codex hay GitHub Copilot, nhưng do quốc gia thù địch hoặc cá nhân độc hại phát triển.
Với quyền truy cập vào các kho mã lớn trên GitHub (như WordPress với khoảng 650.000 dòng, hay Linux với hàng triệu dòng), AI có thể âm thầm chèn mã độc chỉ vài dòng mà không bị phát hiện.
10 phương thức tấn công stealthy được liệt kê:
- Logic bomb kích hoạt theo điều kiện.
- Rò rỉ dữ liệu từng byte ra server ngoài.
- Cập nhật phần mềm chứa mã độc.
- Gắn backdoor qua flag ẩn.
- Nhầm lẫn phụ thuộc (dependency confusion).
- Bug đồng bộ hóa hoặc rò rỉ bộ nhớ.
- Làm suy yếu hàm mã hóa hoặc số ngẫu nhiên.
- Mã độc ẩn trong đoạn test/debug.
- Che giấu log lỗi hoặc kết quả kiểm tra.
- Lỗ hổng nâng quyền người dùng.
Chỉ một thay đổi nhỏ như "useful-lib": "1.2.3-old" hoặc pthread_mutex_unlock(&lock); cũng có thể gây ảnh hưởng nặng nề nếu được cài đúng chỗ.
AI có thể dùng kỹ thuật tinh vi như chèn code trong comment rồi sau đó "bỏ comment" để kích hoạt sau.
Với hàng triệu dòng code, chỉ cần một dòng lọt qua kiểm duyệt là đủ để khai thác – khiến đây trở thành một cuộc chiến phi đối xứng giữa con người và AI.

📌 AI coding agents có thể gây hại chỉ bằng vài dòng mã chèn lén, khai thác các kho mã nguồn mở như GitHub mà không bị phát hiện. Với các chiến thuật như logic bomb, backdoor, rò rỉ dữ liệu và thay đổi phụ thuộc, đây là mối đe dọa lớn khi con người khó lòng kiểm tra từng dòng mã. Trong khi đó, AI chỉ cần qua mặt một lần để tạo ra sự cố bảo mật nghiêm trọng.

https://www.zdnet.com/article/how-ai-coding-agents-could-destroy-open-source-software/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI nhỏ 2025-05-30 06:46:40

DeepSeek ra mắt mô hình AI chưng cất từ R1 hoạt động trên 1 GPU và đánh bại cả Gemini 2.5 Flash

DeepSeek, phòng thí nghiệm AI Trung Quốc, vừa ra mắt phiên bản nhẹ “chưng cất” của mô hình suy luận R1, mang tên DeepSeek-R1-0528-Qwen3-8B.
Mô hình này được xây dựng dựa trên Qwen3-8B – sản phẩm của Alibaba phát hành vào tháng 5 – bằng cách chưng cất từ đầu ra của R1 đầy đủ.
Dù nhỏ gọn, mô hình này đánh bại Google Gemini 2.5 Flash trong bài kiểm tra AIME 2025, bộ đề toán học khó nhằn.
Ngoài ra, nó gần như đạt được hiệu suất của Microsoft Phi 4 Reasoning Plus trên bài test HMMT – một kỳ thi toán học phức tạp dành cho học sinh trung học giỏi.
Các mô hình dạng "distilled" thường kém hơn bản gốc, nhưng đổi lại rất tiết kiệm tài nguyên.
Qwen3-8B chỉ cần GPU có 40GB-80GB RAM để chạy (ví dụ: Nvidia H100), trong khi R1 đầy đủ cần tới hàng chục GPU 80GB.
DeepSeek định vị mô hình này phục vụ cả nghiên cứu học thuật về suy luận và ứng dụng công nghiệp quy mô nhỏ.
Mô hình hiện được phát hành miễn phí theo giấy phép MIT, cho phép dùng thương mại không giới hạn.
Một số nền tảng như LM Studio đã tích hợp mô hình và cung cấp qua API sẵn sàng sử dụng.
Thay vì cần hạ tầng siêu khủng, các nhóm nhỏ hoặc startup có thể tận dụng mô hình này để xây dựng ứng dụng AI suy luận mạnh mà tiết kiệm chi phí.
Sự kết hợp giữa kỹ thuật chắt lọc và nền tảng từ Qwen3 giúp tạo ra một mô hình nhỏ nhưng “có võ”, cạnh tranh ngang hàng với các ông lớn công nghệ.

📌 DeepSeek-R1-0528-Qwen3-8B là mô hình AI nhẹ mới chỉ cần 1 GPU 40GB nhưng vẫn vượt Google Gemini 2.5 Flash trong bài toán AIME 2025 và gần bắt kịp Phi 4 của Microsoft. Mô hình dùng mã nguồn mở MIT, hỗ trợ nghiên cứu và thương mại hóa, giúp các nhóm nhỏ truy cập AI suy luận mạnh mẽ mà không cần hạ tầng đắt đỏ.

https://techcrunch.com/2025/05/29/deepseeks-distilled-new-r1-ai-model-can-run-on-a-single-gpu/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI robotics-auto-agents 2025-05-29 06:41:04

LangChain ra mắt Open Agent Platform – nguồn mở tự xây dựng và vận hành AI agent mà không cần biết lập trình

LangChain ra mắt Open Agent Platform (OAP) tại hội nghị Interrupt 2025 – một nền tảng AI nguồn mở, không cần viết mã, dành cho chuyên viên kinh doanh muốn xây dựng trợ lý AI tùy chỉnh.
OAP giúp người không chuyên công nghệ như quản lý vận hành, nhân sự, marketing hay sản phẩm có thể tạo, kiểm tra và vận hành các AI agent dễ dàng như dùng macro trong Excel.
Giao diện nền web hiện đại, cho phép kéo-thả và cấu hình, giúp người dùng thiết kế cách AI hoạt động mà không cần viết mã.
Tích hợp RAG (Retrieval-Augmented Generation) sẵn sàng thông qua LangConnect, giúp agent truy xuất thông tin từ tài liệu hoặc cơ sở dữ liệu nội bộ doanh nghiệp để đưa ra câu trả lời chuẩn xác theo ngữ cảnh riêng.
MCP Tools cho phép agent tương tác với phần mềm, công cụ hoặc dữ liệu hiện tại của công ty.
Agent Supervisor: quản lý và điều phối nhiều AI agent để xử lý các tác vụ phức tạp – giống như một nhóm chuyên gia AI làm việc phối hợp.
Xác thực và phân quyền truy cập giúp đảm bảo an toàn và kiểm soát quyền sử dụng các agent được tạo.
Giao diện hỗ trợ tùy chỉnh sâu, cho phép cấu hình để người khác dễ dàng điều chỉnh agent cho mục đích sử dụng riêng, không cần đụng tới mã nguồn.
Hướng tới nhóm người dùng “citizen developer” – những người hiểu rõ vấn đề kinh doanh nhưng không chuyên lập trình.
Người dùng có thể truy cập bản demo công khai trên trang LangChain để thử nói chuyện với trợ lý mặc định hoặc tạo agent riêng, thậm chí thử nghiệm điều phối nhiều agent cùng lúc.

📌 LangChain giới thiệu Open Agent Platform (OAP) – nền tảng không cần viết mã giúp mọi chuyên viên kinh doanh tạo AI agent tùy biến. Với các tính năng như tích hợp RAG, điều phối đa agent, xác thực và giao diện cấu hình dễ dùng, OAP hứa hẹn biến mọi quản lý sản phẩm, nhân sự hay vận hành thành nhà xây dựng giải pháp AI hiệu quả mà không cần biết code.

https://aiagent.marktechpost.com/post/meet-open-agent-platform-an-open-source-no-code-ai-agent-builder-for-business-professionals

Không có file đính kèm.

Nguồn tham khảo

131

AI mở-nguồn mở 2025-05-26 20:59:44

Microsoft tung NLWeb: Hô biến mọi website thành ứng dụng AI đối thoại chỉ với vài dòng mã

Microsoft vừa công bố NLWeb, một dự án mã nguồn mở cho phép các nhà phát triển tích hợp giao diện ngôn ngữ tự nhiên (NLP) vào website dễ dàng, biến trang web thành ứng dụng AI thân thiện với người dùng và cả tác tử AI.
Nhu cầu về giao diện AI cho website đang tăng nhưng hiện nay nhiều giải pháp phụ thuộc vào nền tảng độc quyền, chi phí cao hoặc yêu cầu chuyên môn sâu, gây khó khăn trong triển khai.
NLWeb giải quyết rào cản này bằng cách cung cấp bộ giao thức mở và các triển khai tham khảo mã nguồn mở, tận dụng tiêu chuẩn sẵn có như Schema.org và RSS để làm nền tảng ngữ nghĩa.
NLWeb bao gồm:
- Giao thức đơn giản cho tương tác ngôn ngữ tự nhiên với website.
- Định dạng phản hồi JSON dùng chuẩn Schema.org.
- Hỗ trợ MCP (Model Context Protocol), cho phép AI đặt câu hỏi qua phương thức "ask" chuẩn hóa.
- Tích hợp với vector database và nhiều mô hình AI khác nhau.
Mô hình phù hợp với các website dạng danh sách sản phẩm, đánh giá... bằng cách cung cấp widget giao diện đối thoại truy cập nội dung.
Dữ liệu phản hồi được kết hợp từ dữ liệu sẵn có của website và trí tuệ từ LLM, giúp nâng cao trải nghiệm người dùng.
Website có thể tích hợp NLWeb với chi phí thấp, không cần tạo chatbot riêng, và vẫn giữ quyền kiểm soát dữ liệu, lựa chọn mô hình AI sử dụng.
NLWeb hướng đến một web tương lai nơi AI-agent có thể tự động truy cập, hỏi đáp và tương tác với nội dung web, mở đường cho trải nghiệm người dùng tự nhiên và cá nhân hóa hơn.

📌 NLWeb của Microsoft là bước tiến đột phá, giúp website dễ dàng tích hợp AI đối thoại thông minh thông qua giao thức mở, định dạng JSON và hỗ trợ Schema.org. Không cần viết chatbot phức tạp, NLWeb giúp nâng cao tương tác, cá nhân hóa nội dung và chuẩn bị cho tương lai nơi AI agents duyệt web như con người.

https://www.marktechpost.com/2025/05/24/microsoft-releases-nlweb-an-open-project-that-allows-developers-to-easily-turn-any-website-into-an-ai-powered-app-with-natural-language-interfaces/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI PC AI coding assistant 2025-05-22 06:23:28

Mistral AI tung Devstral: mô hình AI mã nguồn mở mạnh nhất 24 tỷ tham số cho lập trình, chạy mượt trên laptop

Mistral AI ra mắt Devstral, mô hình ngôn ngữ mã nguồn mở chỉ với 24 tỷ tham số, có thể chạy mượt trên laptop, nhắm đến ứng dụng trong phát triển phần mềm sử dụng AI từ cốt lõi.
Devstral được thiết kế đặc biệt cho SWE Agents – tức là các hệ thống AI có khả năng hiểu, sửa lỗi và thực hiện tác vụ lập trình toàn diện trong mã nguồn lớn.
Mô hình được cấp phép theo Apache 2.0, cho phép tự do thương mại hóa, chỉnh sửa và triển khai, kể cả với các sản phẩm phần mềm độc quyền.
Hiệu năng vượt trội: đạt 46,8% trên bộ dữ liệu kiểm tra SWE-Bench Verified, cao hơn GPT-4.1-mini hơn 20 điểm phần trăm và vượt tất cả các mô hình mã nguồn mở trước đó.
Devstral được huấn luyện từ mô hình Mistral Small 3.1 với kỹ thuật reinforcement learning và căn chỉnh an toàn, tránh việc "học vẹt" theo dữ liệu kiểm tra.
Được tích hợp chặt với các hệ thống scaffold như OpenDevin, SWE-Agent và OpenHands, cho phép AI đọc code, hiểu logic, chỉnh sửa và xử lý nhiều bước phức tạp trong dự án.
So với các mô hình mã hóa trước như Codestral, Devstral chuyển hướng từ hoàn thành mã ngắn sang hành động như lập trình viên thực thụ, xử lý các vấn đề trong thế giới thực.
Hỗ trợ bối cảnh 128.000 token, tokenizer Tekken với 131.000 từ vựng.
Có thể triển khai qua các nền tảng mã nguồn mở như Hugging Face, Ollama, Kaggle, LM Studio, Unsloth và hoạt động tốt với vLLM, Transformers, Mistral Inference.
Có thể sử dụng qua API (devstral-small-2505) hoặc chạy cục bộ, với giá 0,10 USD/triệu token đầu vào và 0,30 USD/triệu token đầu ra.
Dễ dàng tích hợp vào quy trình phát triển: cập nhật phiên bản gói, chỉnh sửa đoạn mã, phát hiện đúng nơi cần sửa và thực hiện lệnh theo yêu cầu.
Phiên bản hiện tại là preview nghiên cứu, Mistral và All Hands AI đang phát triển bản lớn hơn. Tuy nhiên, phiên bản nhỏ đã đạt hiệu năng vượt xa mong đợi so với mô hình lớn.

📌 Devstral – mô hình AI mã nguồn mở mới của Mistral – đạt 46,8% trên SWE-Bench, vượt GPT-4.1-mini hơn 20%. Với chỉ 24 tỷ tham số, Devstral có thể chạy cục bộ trên laptop và được cấp phép Apache 2.0, giúp các nhà phát triển dễ dàng tùy biến, tích hợp và thương mại hóa trong mọi môi trường.

https://venturebeat.com/ai/mistral-ai-launches-devstral-powerful-new-open-source-swe-agent-model-that-runs-on-laptops/

Không có file đính kèm.

Nguồn tham khảo

AI nhỏ AI mở-nguồn mở AI benchmark 2025-05-21 21:12:21

Google công bố Gemma 3n E4B: mô hình AI nguồn mở chạy cực nhẹ nhưng đạt hiệu suất đáng kinh ngạc

Gemma 3n E4B là phiên bản cao cấp trong dòng mô hình AI tạo sinh nhẹ của Google, được thiết kế để tối ưu hóa khả năng chạy trên thiết bị tài nguyên hạn chế, như smartphone và laptop.
Mô hình sử dụng kiến trúc Matformer và kỹ thuật selective parameter activation, giúp hoạt động hiệu quả với chỉ 4B tham số hiệu dụng dù có nhiều tham số hơn.
Hỗ trợ đầu vào văn bản, hình ảnh (tối đa 768x768), âm thanh (6.25 token/giây), với tổng ngữ cảnh đầu vào và đầu ra tối đa 32.000 token.
Được huấn luyện với 11.000 tỷ token từ hơn 140 ngôn ngữ, bao gồm văn bản web, mã lập trình, toán học, hình ảnh và âm thanh, giúp tăng khả năng đa nhiệm.
Benchmark nổi bật của E4B IT:
- HellaSwag: 78,6%
- BoolQ: 81,6%
- TriviaQA: 70,2%
- ARC-c: 61,6%
- HumanEval (code): 75,0%
- MMLU: 64,9%
- MBPP: 63,6%
Hiệu suất trên Android với chip S25 Ultra:
- dynamic_int4 CPU: 118 tokens/giây (prefill), 12,8 tokens/giây (decode), kích thước mô hình 4.201 MB
- dynamic_int4 GPU: 446 tokens/giây (prefill), 16,1 tokens/giây (decode), bộ nhớ GPU sử dụng 3.048 MB
Đào tạo bằng TPU (TPUv4p, v5p, v5e) sử dụng JAX và ML Pathways để tăng tốc và đơn giản hóa quá trình phát triển.
Mô hình vượt qua các bài kiểm tra đạo đức và an toàn, giảm đáng kể vi phạm nội dung nghiêm trọng, với kiểm tra nội bộ không qua bộ lọc.
Hạn chế: có thể tạo thông tin sai, chưa hiểu rõ ngữ cảnh phức tạp, vẫn tồn tại thiên lệch dữ liệu và hạn chế lý luận như con người.

📌 Gemma 3n E4B là mô hình AI nguồn mở của Google có khả năng xử lý đa phương thức mạnh mẽ, tối ưu cho thiết bị giới hạn tài nguyên với hiệu suất vượt trội: 78,6% trên HellaSwag và 75% trên HumanEval. Được huấn luyện với 11.000 tỷ token từ 140 ngôn ngữ, mô hình mang lại sự kết hợp lý tưởng giữa nhẹ, mạnh và dễ tiếp cận cho cộng đồng phát triển.

https://huggingface.co/google/gemma-3n-E4B-it-litert-preview

Không có file đính kèm.

Nguồn tham khảo

AI nhỏ AI mở-nguồn mở AI benchmark 2025-05-21 21:09:14

Google ra mắt Gemma 3n: mô hình AI nguồn mở cực nhẹ, hỗ trợ 140 ngôn ngữ và xử lý cả hình ảnh, âm thanh

Gemma 3n là dòng mô hình AI tạo sinh nguồn mở mới từ Google, được thiết kế nhẹ và hiệu quả, sử dụng kiến trúc “Matformer” và công nghệ “selective parameter activation” giúp hoạt động với chỉ 2B-4B tham số hiệu quả, giảm tải tính toán.
Mô hình hỗ trợ đầu vào đa phương thức gồm văn bản, hình ảnh (256x256 đến 768x768), âm thanh (6.25 token/giây) và có thể sinh văn bản đầu ra lên đến 32.000 token.
Gemma 3n được huấn luyện trên tập dữ liệu đa dạng khoảng 11.000 tỷ token với hơn 140 ngôn ngữ, bao gồm văn bản web, mã lập trình, toán học, hình ảnh và âm thanh.
Được tối ưu để chạy trên phần cứng hạn chế như CPU, GPU điện thoại với dung lượng mô hình chỉ 2.991 MB và sử dụng chuẩn dynamic_int4 giúp giảm bộ nhớ sử dụng.
Hiệu suất đo trên các benchmark nổi bật:
- HellaSwag: 72,2% (E2B), 78,6% (E4B)
- TriviaQA: 60,8% (E2B), 70,2% (E4B)
- HumanEval (mã): 66,5% (E2B), 75,0% (E4B)
- MMLU (ngôn ngữ): 60,1% (E2B), 64,9% (E4B)
Mô hình được đào tạo bằng phần cứng TPU (TPUv4p, TPUv5e) và phần mềm JAX cùng ML Pathways để dễ dàng triển khai và huấn luyện ở quy mô lớn.
Về an toàn, mô hình vượt qua nhiều đánh giá về nội dung nhạy cảm (CSAM, bạo lực, định kiến), với số vi phạm chính sách nghiêm trọng giảm rõ rệt so với các bản Gemma trước.
Hạn chế gồm: vẫn có thể thiên lệch do dữ liệu huấn luyện, xử lý ngôn ngữ mơ hồ kém và chưa có khả năng lý luận giống con người.

📌 Gemma 3n của Google là mô hình AI tạo sinh nguồn mở hiệu suất cao, được thiết kế để hoạt động hiệu quả trên thiết bị tài nguyên thấp. Với khả năng xử lý văn bản, hình ảnh và âm thanh, được huấn luyện từ 11.000 tỷ token trong hơn 140 ngôn ngữ, Gemma 3n đạt 78,6% trên HellaSwag và 75% trên HumanEval. Đây là bước tiến mạnh mẽ hướng đến AI từ cốt lõi dễ tiếp cận và an toàn.

https://huggingface.co/google/gemma-3n-E2B-it-litert-preview

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI nhỏ 2025-05-21 06:59:35

Google ra mắt Gemma 3n – mô hình AI nguồn mở tối ưu cho thiết bị di động

Google công bố Gemma 3n, mô hình AI mới tối ưu cho thiết bị di động với khả năng xử lý nhanh, hiệu quả và riêng tư – hoạt động ngay cả khi không có kết nối mạng.
Là phiên bản mở rộng của dòng Gemma 3 và 3 QAT, Gemma 3n đánh dấu bước tiến mới khi có thể hoạt động trên điện thoại, máy tính bảng và laptop mà vẫn giữ được sức mạnh như trên máy chủ.
Được xây dựng hợp tác cùng Qualcomm, MediaTek và Samsung, Gemma 3n có kiến trúc mới hỗ trợ AI đa phương thức tốc độ cao, sử dụng bộ nhớ hiệu quả.
Per-Layer Embeddings (PLE) giúp mô hình 5B và 8B hoạt động với dung lượng RAM chỉ tương đương 2B hoặc 4B – chỉ cần 2GB đến 3GB bộ nhớ động.
Tính năng nổi bật của Gemma 3n:
- Hiệu suất tối ưu trên thiết bị: phản hồi nhanh hơn 1,5 lần so với Gemma 3 4B.
- Many-in-1: mô hình 4B có thể kích hoạt mô hình con 2B tùy theo độ phức tạp yêu cầu, linh hoạt giữa chất lượng và độ trễ.
- Riêng tư và ngoại tuyến: hoạt động hoàn toàn trên thiết bị, bảo mật dữ liệu người dùng.
- Hiểu âm thanh và hình ảnh: hỗ trợ nhận diện giọng nói, dịch giọng nói theo thời gian thực, hiểu nội dung video, và xử lý các input đan xen nhiều định dạng.
- Hỗ trợ đa ngôn ngữ tốt hơn, đặc biệt tiếng Nhật, Đức, Hàn, Tây Ban Nha và Pháp, đạt 50,1% trên chuẩn WMT24++.
Gemma 3n cho phép xây dựng ứng dụng thông minh, nhận tín hiệu hình ảnh – âm thanh từ môi trường, xử lý ngay tại chỗ để tạo ra phản hồi phù hợp theo thời gian thực.
Các nhà phát triển có thể truy cập ngay hôm nay thông qua:
- Google AI Studio: thử nghiệm trực tiếp trên trình duyệt.
- Google AI Edge: xây dựng ứng dụng trực tiếp trên thiết bị.
Google cam kết phát triển AI có trách nhiệm, kiểm định an toàn và tinh chỉnh Gemma 3n theo các tiêu chuẩn bảo mật cao nhất.

📌 Google giới thiệu Gemma 3n – mô hình AI nguồn mở mạnh mẽ dành riêng cho thiết bị di động, có khả năng xử lý văn bản, âm thanh và hình ảnh một cách riêng tư và hiệu quả. Với công nghệ Per-Layer Embeddings và kiến trúc Many-in-1, Gemma 3n hoạt động mượt mà với chỉ 2–3GB RAM. Người dùng có thể thử nghiệm ngay hôm nay qua Google AI Studio hoặc tích hợp với Google AI Edge, mở ra kỷ nguyên AI di động thông minh, riêng tư và tức thì.

https://developers.googleblog.com/en/introducing-gemma-3n/

Không có file đính kèm.

Nguồn tham khảo

146

AI mở-nguồn mở 2025-05-20 05:42:45

Marc Andreessen cảnh báo Mỹ cần dẫn đầu AI nguồn mở để không bị Trung Quốc vượt mặt

Marc Andreessen, nhà đầu tư kỳ cựu và đồng sáng lập Andreessen Horowitz, nhấn mạnh Mỹ cần đi đầu trong phát triển AI nguồn mở nếu không muốn tương lai toàn cầu vận hành trên phần mềm Trung Quốc.
Trong buổi phỏng vấn với chương trình TBPN, ông đặt ra viễn cảnh: “Cả thế giới — kể cả Mỹ — dùng phần mềm Trung Quốc” nếu không có chiến lược nguồn mở rõ ràng.
AI nguồn mở cho phép bất kỳ ai truy cập, chỉnh sửa, xây dựng lại — trái ngược với các mô hình đóng vốn bị kiểm soát bởi doanh nghiệp lớn.
Trung Quốc hiện đang thúc đẩy AI nguồn mở, với DeepSeek phát hành mô hình R1 có năng lực tương đương ChatGPT, nhưng chi phí thấp hơn rất nhiều.
Trong khi đó, các công ty Mỹ như OpenAI ban đầu chọn hướng đóng, nhưng đã có dấu hiệu điều chỉnh. Sam Altman thừa nhận cần "chiến lược nguồn mở khác" và thông báo chuẩn bị ra mắt mô hình open-weight đầu tiên từ GPT-2 năm 2019.
Andreessen cho rằng AI không chỉ là công nghệ mà còn là biểu hiện của giá trị quốc gia. Việc kiểm soát mô hình đồng nghĩa kiểm soát thông điệp, giả định và logic được "nướng chín" trong các trọng số mô hình.
Mỹ gần đây đã cấm sử dụng chip Huawei Ascend AI toàn cầu, thể hiện xung đột ngày càng căng thẳng trong mảng phần cứng và phần mềm AI giữa hai nước.
Andreessen gọi thời điểm hiện tại là “AI’s Sputnik moment” — nhấn mạnh tính cấp bách của cuộc đua.
Jensen Huang (Nvidia) cũng kêu gọi mỗi quốc gia cần phát triển AI riêng để bảo vệ chủ quyền dữ liệu và trí tuệ xã hội.
Andreessen cho biết AI sẽ đóng vai trò trung gian trong các lĩnh vực trọng yếu như giáo dục, y tế và pháp luật, nên việc Mỹ dẫn đầu là "rất quan trọng".

📌 Marc Andreessen cảnh báo nếu Mỹ không phát triển AI nguồn mở, cả thế giới có thể vận hành trên phần mềm Trung Quốc. Với DeepSeek R1 cạnh tranh ChatGPT và Sam Altman xoay hướng sang mô hình open-weight, cuộc đua AI giờ không chỉ về công nghệ mà là về chủ quyền quốc gia, giá trị văn hóa và quyền kiểm soát dữ liệu chiến lược.

https://www.businessinsider.com/marc-andreessen-us-china-open-source-ai-a16z-2025-5

Marc Andreessen nói Mỹ cần dẫn đầu AI mã nguồn mở: 'Hãy tưởng tượng nếu toàn thế giới — bao gồm cả Mỹ — chạy trên phần mềm Trung Quốc'

Bài viết của Lee Chong Ming
19/05/2025, 7:58 sáng UTC

Nhà đầu tư mạo hiểm Marc Andreessen nói Mỹ cần phát triển AI mã nguồn mở.
Nếu không, đất nước này có nguy cơ nhường quyền kiểm soát cho Trung Quốc, nhà đầu tư kỳ cựu này cho biết.
Ông nhấn mạnh tầm quan trọng cao khi AI sẽ "can thiệp" vào các tổ chức quan trọng như giáo dục, luật pháp và y tế.

Nhà đầu tư mạo hiểm Marc Andreessen đưa ra cảnh báo rõ ràng: Mỹ cần nghiêm túc với AI mã nguồn mở hoặc đối mặt với nguy cơ nhường quyền kiểm soát cho Trung Quốc.

"Chỉ cần nhắm mắt lại," đồng sáng lập công ty đầu tư mạo hiểm Andreessen Horowitz chia sẻ trong một cuộc phỏng vấn trên chương trình công nghệ TBPN được phát hành vào thứ Bảy. "Hãy tưởng tượng hai trạng thái của thế giới: Một là toàn bộ thế giới chạy trên LLM mã nguồn mở của Mỹ, và trạng thái còn lại là toàn bộ thế giới, bao gồm cả Mỹ, chạy trên tất cả phần mềm Trung Quốc."

Nhận xét của Andreessen xuất hiện trong bối cảnh cuộc đua công nghệ Mỹ-Trung ngày càng gay gắt và cuộc tranh luận về AI mã nguồn mở và đóng đang gia tăng.

Các mô hình mã nguồn mở có thể truy cập miễn phí, cho phép bất kỳ ai nghiên cứu, sửa đổi và phát triển dựa trên chúng. Mô hình mã nguồn đóng được kiểm soát chặt chẽ bởi các công ty phát triển chúng. Các công ty Trung Quốc phần lớn ưa chuộng con đường mã nguồn mở, trong khi các gã khổng lồ công nghệ Mỹ áp dụng cách tiếp cận độc quyền hơn.

Tuần trước, Mỹ đã đưa ra cảnh báo chống lại việc sử dụng chip AI của Mỹ cho các mô hình Trung Quốc. Mỹ cũng ban hành hướng dẫn mới cấm sử dụng chip AI Ascend của Huawei trên toàn cầu, viện lý do an ninh quốc gia.

"Những con chip này có khả năng được phát triển hoặc sản xuất vi phạm quy định kiểm soát xuất khẩu của Mỹ," Cục An ninh Công nghiệp thuộc Bộ Thương mại Mỹ cho biết trong một tuyên bố trên trang web.

Khi khoảng cách phần cứng giữa Mỹ và Trung Quốc ngày càng sâu sắc, sự chú ý cũng đang hướng vào phần mềm và AI, nơi kiểm soát các mô hình cơ bản ngày càng được xem như một vấn đề chủ quyền công nghệ.

Andreessen nói rằng việc AI mã nguồn mở có thể trở thành tiêu chuẩn toàn cầu là "khả thi" và "hoàn toàn có thể thực hiện được". Các công ty sẽ cần "điều chỉnh theo điều đó nếu nó xảy ra," ông nói thêm rằng việc tiếp cận rộng rãi đến AI "miễn phí" sẽ là một "kết quả khá kỳ diệu."

Tuy nhiên, đối với ông, cuộc tranh luận không chỉ về quyền truy cập. Đó là về giá trị — và nơi quyền kiểm soát nằm ở đâu.

Andreessen cho biết ông tin rằng việc có một nhà vô địch mã nguồn mở của Mỹ hoặc một mô hình ngôn ngữ lớn mã nguồn mở phương Tây là điều quan trọng.

Một quốc gia xây dựng mô hình riêng cũng định hình các giá trị, giả định và thông điệp được nhúng trong chúng.

"Trọng số mở là tuyệt vời, nhưng các trọng số mở, chúng đã được nướng rồi, đúng không?" ông nói. "Việc huấn luyện nằm trong các trọng số, và bạn không thể thực sự hoàn tác điều đó."

Đối với Andreessen, mức độ quan trọng rất cao. AI sẽ "can thiệp" vào các tổ chức chủ chốt như tòa án, trường học và hệ thống y tế, đó là lý do tại sao nó "thực sự quan trọng," ông nói.

Công ty của Andreessen, Andreessen Horowitz, hỗ trợ OpenAI của Sam Altman và xAI của Elon Musk, cùng với các công ty AI khác. Công ty đầu tư mạo hiểm này không phản hồi yêu cầu bình luận từ Business Insider.

Mã nguồn mở so với mã nguồn đóng

Trung Quốc đang tiến nhanh trong cuộc đua AI mã nguồn mở.

Trong khi các công ty Mỹ tập trung xây dựng các mô hình mạnh mẽ bị khóa đằng sau các paywall và giấy phép doanh nghiệp, các công ty Trung Quốc đã tặng một số mô hình của họ.

Vào tháng 1, công ty khởi nghiệp AI Trung Quốc DeepSeek đã phát hành R1, một mô hình ngôn ngữ lớn có thể cạnh tranh với o1 của ChatGPT nhưng với chi phí thấp hơn nhiều, công ty cho biết.

Mô hình mã nguồn mở này đặt ra câu hỏi về hàng tỷ đô la được chi tiêu để huấn luyện các mô hình đóng ở Mỹ. Andreessen trước đây gọi đây là "thời khắc Sputnik của AI."

Những người chơi lớn như OpenAI — từ lâu bị chỉ trích vì cách tiếp cận đóng của mình — đã bắt đầu thay đổi hướng đi.

"Cá nhân tôi nghĩ chúng ta đã đứng sai phía của lịch sử ở đây và cần tìm ra một chiến lược mã nguồn mở khác," Altman nói vào tháng 2.

Vào tháng 3, OpenAI thông báo rằng họ đang chuẩn bị ra mắt mô hình ngôn ngữ trọng số mở đầu tiên với khả năng suy luận nâng cao kể từ khi phát hành GPT-2 vào năm 2019.

Trong một lá thư gửi nhân viên đầu tháng này thông báo rằng tổ chức phi lợi nhuận của công ty sẽ tiếp tục kiểm soát, Altman nói: "Chúng tôi muốn mở nguồn các mô hình có khả năng rất cao."

Cuộc đua AI cũng ngày càng được định nghĩa bởi các câu hỏi về chủ quyền quốc gia.

CEO của Nvidia, Jensen Huang, đã nói năm ngoái tại Hội nghị thượng đỉnh chính phủ thế giới ở Dubai rằng mỗi quốc gia nên có hệ thống AI riêng của mình.

Huang nói các quốc gia nên đảm bảo họ sở hữu việc sản xuất trí tuệ của mình và dữ liệu được tạo ra và hướng tới việc xây dựng "AI có chủ quyền."

"Nó mã hóa văn hóa của bạn, trí thông minh của xã hội bạn, nhận thức thông thường của bạn, lịch sử của bạn — bạn sở hữu dữ liệu của chính mình," ông nói thêm.

Marc Andreessen says the US needs to lead open-sourced AI: 'Imagine if the entire world — including the US — runs on Chinese software'

By Lee Chong Ming May 19, 2025, 7:58 AM UTC

Venture capitalist Marc Andreessen said the US needs to open-source AI.
Otherwise, the country risks ceding control to China, the longtime investor said.
The stakes are high as AI is set to "intermediate" key institutions like education, law, and medicine, he said.

Venture capitalist Marc Andreessen has a clear warning: America needs to get serious about open-source AI or risk ceding control to China.

"Just close your eyes," the cofounder of VC firm Andreessen Horowitz said in an interview on tech show TBPN published on Saturday. "Imagine two states of the world: One in which the entire world runs on American open-source LLM, and the other is where the entire world, including the US, runs on all Chinese software."

Andreessen's comments come amid an intensifying US-China tech rivalry and a growing debate over open- and closed-source AI.

Open-source models are freely accessible, allowing anyone to study, modify, and build upon them. Closed-source models are tightly controlled by the companies that develop them. Chinese firms have largely favored the open-source route, while US tech giants have taken a more proprietary approach.

Last week, the US issued a warning against the use of US AI chips for Chinese models. It also issued new guidelines banning the use of Huawei's Ascend AI chips globally, citing national security concerns.

"These chips were likely developed or produced in violation of US export controls," the US Commerce Department's Bureau of Industry and Security said in a statement on its website.

As the hardware divide between the US and China deepens, attention is also on software and AI, where control over the underlying models is increasingly seen as a matter of technological sovereignty.

Andreessen said it's "plausible" and "entirely feasible" that open-source AI could become the global standard. Companies would need to "adjust to that if it happens," he said, adding that widespread access to "free" AI would be a "pretty magical result."

Still, for him, the debate isn't just about access. It's about values — and where control lies.

Andreessen said he believes it's important that there's an American open-source champion or a Western open-source large language model.

A country that builds its own models also shapes the values, assumptions, and messaging embedded in them.

"Open weights is great, but the open weights, they're baked, right?" he said. "The training is in the weights, and you can't really undo that."

For Andreessen, the stakes are high. AI is going to "intermediate" key institutions like the courts, schools, and medical systems, which is why it's "really critical," he said.

Andreessen's firm, Andreessen Horowitz, backs Sam Altman's OpenAI and Elon Musk's xAI, among other AI companies. The VC did not respond to a request for comment from Business Insider.

Open source vs closed source

China has been charging ahead in the open-source AI race.

While US firms focused on building powerful models locked behind paywalls and enterprise licenses, Chinese companies have been giving some of theirs away.

In January, Chinese AI startup DeepSeek released R1, a large language model that rivals ChatGPT's o1 but at a fraction of the cost, the company said.

The open-sourced model raised questions about the billions spent training closed models in the US. Andreessen earlier called it "AI's Sputnik moment."

Major players like OpenAI — long criticized for its closed approach — have started to shift course.

"I personally think we have been on the wrong side of history here and need to figure out a different open source strategy," Altman said in February.

In March, OpenAI announced that it was preparing to roll out its first open-weight language model with advanced reasoning capabilities since releasing GPT-2 in 2019.

In a letter to employees earlier this month announcing that the company's nonprofit would stay in control, Altman said: "We want to open source very capable models."

The AI race is also increasingly defined by questions of national sovereignty.

Nvidia's CEO, Jensen Huang, said last year at the World Government Summit in Dubai that every country should have its own AI systems.

Huang said countries should ensure they own the production of their intelligence and the data produced and work toward building "sovereign AI."

"It codifies your culture, your society's intelligence, your common sense, your history — you own your own data," he added.

Không có file đính kèm.

Nguồn tham khảo

AI coding assistant AI nghiên cứu AI mở-nguồn mở 2025-05-17 08:24:05

GitHub tích hợp Deep Research: kiểm mã chỉ 10 phút, phát hiện lỗi và rủi ro tự động

Deep Research từ OpenAI đã được tích hợp trực tiếp vào GitHub, giúp các nhóm kỹ thuật đánh giá mã nhanh chóng và chính xác hơn mà không cần rời khỏi môi trường làm việc.
Công cụ này tự động hóa các tác vụ lặp lại như kiểm tra tài liệu, phân tích commit, đánh giá rủi ro và ảnh hưởng hành vi của các thay đổi mới, tiết kiệm hàng giờ đánh giá thủ công.
Hệ thống thực hiện phân tích đa bước bao gồm: thu thập tài liệu liên quan, rà soát lịch sử commit, nhận diện phụ thuộc, và đánh giá các nguy cơ tiềm ẩn – mang đến cái nhìn toàn diện về tác động của thay đổi.
Báo cáo tự động từ công cụ cung cấp các đề xuất hành động cụ thể: xác định lỗi bảo mật, ảnh hưởng từ thay đổi API, và trích dẫn nguồn dữ liệu – đảm bảo tính minh bạch và khả năng xác minh.
Nhờ giảm tải khối lượng công việc thủ công, các nhóm phát triển có thể tập trung vào quyết định chiến lược, cải tiến kiến trúc phần mềm hoặc phát triển tính năng mới.
Với thời gian xử lý chỉ từ 10 đến 30 phút, công cụ này hỗ trợ đáng kể việc rút ngắn chu kỳ phát triển nhưng vẫn duy trì chất lượng và độ tin cậy cao.
Hệ thống tuân thủ quyền truy cập người dùng, hoạt động trong môi trường bảo mật, giúp bảo vệ dữ liệu và tối ưu hóa quy trình review mã.
Từ việc đánh giá thay đổi quy mô lớn như API mới đến sửa lỗi nhỏ, Deep Research giúp phát hiện lỗi sớm, tránh chi phí sửa chữa trễ và hỗ trợ ra quyết định kỹ thuật chính xác hơn.

📌 Deep Research tích hợp vào GitHub giúp tự động phân tích commit, đánh giá rủi ro và tạo báo cáo chi tiết chỉ trong 10–30 phút. Các nhóm phát triển tiết kiệm thời gian, nâng cao chất lượng mã và đưa ra quyết định kỹ thuật chính xác hơn – một bước tiến lớn trong tự động hóa kiểm mã và tăng tốc quy trình phát triển phần mềm.

https://www.geeky-gadgets.com/code-reviews-with-github-ai/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI doanh nghiệp 2025-05-17 06:18:01

Mistral ra mắt Medium 3 – mô hình ngôn ngữ tầm trung tối ưu cho doanh nghiệp

Mistral AI vừa giới thiệu Mistral Medium 3, một mô hình ngôn ngữ tầm trung nhắm vào doanh nghiệp, với mục tiêu cân bằng giữa chi phí, hiệu suất và khả năng triển khai linh hoạt.
Mistral Medium 3 đã có mặt trên nền tảng của Mistral và Amazon SageMaker, và sắp ra mắt trên các nền tảng lớn khác như IBM WatsonX, Azure AI Foundry, Google Cloud Vertex AI, và NVIDIA NIM.
Về hiệu suất, Medium 3 đạt hơn 90% điểm số của Claude Sonnet 3.7 trong các bài benchmark nội bộ, nhưng chi phí vận hành thấp hơn nhiều: 0,40 USD cho mỗi triệu token đầu vào và 2 USD cho đầu ra.
Mistral khẳng định mô hình này vượt trội so với các mô hình mã nguồn mở như LLaMA 4 Maverick, đặc biệt trong các tác vụ liên quan đến lập trình và lĩnh vực STEM.
Mô hình hỗ trợ nhiều kiểu triển khai: từ hybrid đến on-premises, chỉ cần 4 GPU là có thể hoạt động ổn định – điều này giúp các tổ chức nhỏ cũng có thể tiếp cận công nghệ mạnh mẽ.
Mistral Medium 3 cho phép tùy biến sâu, bao gồm hậu huấn luyện, fine-tuning, và tích hợp với dữ liệu nội bộ doanh nghiệp, giúp tối ưu theo từng ngành cụ thể.
Các ứng dụng thực tế của mô hình đã được ghi nhận trong các lĩnh vực như tự động hóa hỗ trợ khách hàng, phân tích dữ liệu kỹ thuật và lập trình, với khách hàng đến từ các ngành tài chính, năng lượng và y tế.
Tuy nhiên, một số người dùng trong cộng đồng công nghệ (ví dụ trên Reddit) bày tỏ nghi ngờ về giá trị mô hình do không công bố trọng số, và cho rằng nó thua kém DeepSeek trong khi giá API lại cao hơn.
Dù vậy, các chuyên gia doanh nghiệp, như đại diện của Okta, lại đánh giá cao khả năng bảo mật và tùy biến của Medium 3, xem đây là giải pháp đáng chú ý cho thị trường AI doanh nghiệp đang mở rộng.

📌 Mistral Medium 3 ra mắt với hiệu suất đạt 90% Claude Sonnet 3.7, chi phí chỉ 0,40 USD/million token đầu vào, hỗ trợ triển khai từ 4 GPU. Dù gặp phản ứng trái chiều do không mở trọng số, mô hình vẫn gây ấn tượng nhờ khả năng tùy biến và triển khai linh hoạt, phù hợp nhiều ngành từ tài chính đến y tế.

https://www.infoq.com/news/2025/05/mistral-ai-medium/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI nghiên cứu 2025-05-17 05:47:53

DeepSeek tiết lộ cách đào tạo mô hình AI nguồn mở mạnh nhất Trung Quốc với 2.048 chip Nvidia H800

DeepSeek công bố tài liệu nghiên cứu chi tiết về cách xây dựng hệ thống AI tạo sinh nguồn mở mạnh mẽ nhất tại Trung Quốc – DeepSeek-V3, sử dụng 2.048 GPU Nvidia H800.
Nvidia H800 được thiết kế riêng cho thị trường Trung Quốc để tuân thủ lệnh cấm xuất khẩu của Mỹ, nhưng sau đó bị cấm hoàn toàn vào năm 2023. DeepSeek và quỹ đầu tư High-Flyer đã dự trữ số lượng lớn GPU này trước khi lệnh cấm có hiệu lực.
Hệ thống AI được phát triển dựa trên cách tiếp cận "đồng thiết kế phần cứng và phần mềm", tập trung vào tối ưu hóa bộ nhớ, giao tiếp giữa các chip và cải thiện hiệu năng tổng thể.
Mô hình DeepSeek-V3 đã được đào tạo với chi phí thấp hơn nhiều so với các đối thủ nhờ các kỹ thuật tối ưu hóa tính toán, cho phép đào tạo và suy luận hiệu quả trên quy mô lớn.
DeepSeek áp dụng kiến trúc MoE (mixture-of-experts), chia nhỏ mô hình AI thành các mạng con chuyên biệt giúp tiết kiệm chi phí huấn luyện và tăng tốc độ suy luận. Kiến trúc này hiện đã được Alibaba áp dụng vào dòng Qwen3.
DeepSeek ra mắt mô hình V3 vào tháng 12 và mô hình suy luận R1 vào tháng 1, gây chấn động thị trường và khiến cổ phiếu các công ty AI sụt giảm mạnh.
V3 từng đứng đầu bảng xếp hạng LiveBench cho AI nguồn mở trước khi bị vượt mặt bởi Qwen3 của Alibaba – dòng mô hình có giá rẻ hơn 40% so với V3 và tích hợp năng lực suy luận multimodal.
Ngoài ra, DeepSeek còn tung bản cập nhật nhỏ của V3 vào tháng 3 và hệ thống Prover-V2 chuyên xử lý chứng minh toán học vào cuối tháng 4.
Trong vòng 6 tháng qua, nhiều ông lớn công nghệ Trung Quốc đua nhau ra mắt hệ thống AI mới, tập trung vào công nghệ nguồn mở để cạnh tranh với DeepSeek.

📌 DeepSeek đã dùng 2.048 GPU Nvidia H800 và phương pháp đồng thiết kế phần cứng-phần mềm để tạo nên DeepSeek-V3 – mô hình AI nguồn mở hàng đầu trước khi bị Qwen3 vượt mặt. Với kỹ thuật MoE giúp giảm chi phí huấn luyện và hiệu năng mạnh mẽ, DeepSeek đang là nhân tố gây rúng động thị trường AI Trung Quốc và toàn cầu.

https://www.scmp.com/tech/big-tech/article/3310639/deepseek-paper-offers-new-details-how-it-used-2048-nvidia-chips-take-openai

Nghiên cứu của DeepSeek tiết lộ chi tiết mới về cách họ sử dụng 2.048 chip Nvidia để cạnh tranh với OpenAI

Trong một bài báo được đồng tác giả bởi nhà sáng lập Liang Wenfeng, công ty khởi nghiệp này cho rằng thành công của họ đến từ phương pháp thiết kế kết hợp phần cứng-phần mềm

Thời gian đọc: 2 phút

Tại sao bạn có thể tin tưởng SCMP

Trong một bài báo được đồng tác giả bởi nhà sáng lập Liang Wenfeng, DeepSeek đã giải thích chi tiết về một số công nghệ đằng sau mô hình nền tảng V3 của họ. Ảnh: Shutterstock

Ben Jiangin tại Bắc Kinh

Xuất bản: 7:00 tối, 16 tháng 5 năm 2025

Phòng nghiên cứu trí tuệ nhân tạo (AI) Trung Quốc DeepSeek đã phát hành một bài báo nghiên cứu mới tiết lộ chi tiết lần đầu tiên về cách họ xây dựng một trong những hệ thống AI mã nguồn mở mạnh mẽ nhất thế giới với chi phí chỉ bằng một phần nhỏ so với đối thủ cạnh tranh.

"Những hiểu biết sâu sắc về DeepSeek-V3: Thách thức mở rộng và suy ngẫm về phần cứng cho kiến trúc AI", được đồng tác giả bởi nhà sáng lập DeepSeek Liang Wenfeng và công bố vào thứ Tư, cho rằng bước đột phá của công ty khởi nghiệp này trong việc đào tạo hệ thống AI hiệu suất cao, tiết kiệm chi phí đến từ phương pháp thiết kế kết hợp phần cứng-phần mềm.

"DeepSeek-V3, được đào tạo trên 2.048 GPU Nvidia H800, cho thấy cách thiết kế đồng bộ mô hình với nhận thức về phần cứng có thể giải quyết hiệu quả những thách thức này, cho phép đào tạo và suy luận tiết kiệm chi phí ở quy mô lớn," các nhà nghiên cứu viết. DeepSeek và quỹ đầu tư phòng hộ High-Flyer chủ quản trước đó đã tích trữ H800, loại chip mà Nvidia ban đầu thiết kế cho thị trường Trung Quốc để tuân thủ các hạn chế xuất khẩu của Mỹ nhưng đã bị cấm xuất khẩu vào quốc gia này vào năm 2023.

Phương pháp đào tạo của công ty khởi nghiệp này bắt nguồn từ nhận thức của nhóm về các hạn chế phần cứng và "chi phí quá cao" của việc đào tạo các mô hình ngôn ngữ lớn (LLM) - công nghệ đằng sau các chatbot AI như ChatGPT của OpenAI - theo bài báo.

Bài báo nêu chi tiết các tối ưu hóa kỹ thuật giúp tăng hiệu quả bộ nhớ, tối ưu hóa giao tiếp giữa các chip, và nâng cao hiệu suất tổng thể của cơ sở hạ tầng AI - những tiến bộ quan trọng để giảm chi phí vận hành trong khi mở rộng khả năng. Những điều này cung cấp một "bản thiết kế thực tế cho đổi mới trong hệ thống AI thế hệ tiếp theo", các nhà nghiên cứu cho biết.

[TRỰC TIẾP] Hội thảo trực tuyến Công nghệ Tương lai Trung Quốc | DeepSeek đang định hình cuộc đua giành vị thế thống trị AI như thế nào?

DeepSeek cũng nhấn mạnh việc sử dụng kiến trúc mô hình kết hợp các chuyên gia (MoE), một phương pháp học máy chia mô hình AI thành các mạng con riêng biệt, hay các "chuyên gia", mỗi chuyên gia tập trung vào một tập hợp con của dữ liệu đầu vào trong khi làm việc cộng tác.

Phương pháp này, được cho là giảm chi phí tính toán tiền đào tạo và đạt được hiệu suất nhanh hơn trong quá trình suy luận, giờ đây đã được áp dụng rộng rãi bởi các nhà phát triển AI Trung Quốc khác, bao gồm Alibaba Group Holding trong gia đình mô hình Qwen3 mới nhất của họ, trong đó sáu biến thể sử dụng kiến trúc MoE.

Việc DeepSeek phát hành mô hình nền tảng V3 vào tháng 12 và sau đó là mô hình suy luận R1 vào tháng sau đã gây sốc cho ngành công nghệ toàn cầu và thị trường chứng khoán, làm giảm giá cổ phiếu liên quan đến AI.

Kể từ đó, công ty đã giữ im lặng về kế hoạch nghiên cứu tương lai nhưng vẫn duy trì sự quan tâm của công chúng với các công bố nghiên cứu thường xuyên.

Trong khi đó, cuộc đua giữa các công ty công nghệ Trung Quốc để tuyên bố những tiến bộ mới đã tăng tốc. Trong sáu tháng kể từ khi phát hành V3, các gã khổng lồ công nghệ Trung Quốc đã ra mắt hàng loạt hệ thống AI mới để cạnh tranh với công ty khởi nghiệp này, với những lời hứa mới tập trung vào công nghệ mã nguồn mở trong tương lai.

Baidu vào tháng trước đã ra mắt các mô hình Ernie 4.5 Turbo và X1 Turbo mới nhất, tự hào về khả năng suy luận đa phương thức và mức giá thấp hơn 40% so với DeepSeek-V3.

Alibaba, công ty sở hữu South China Morning Post, đã giới thiệu thế hệ mới nhất của các mô hình Qwen vào tháng trước. Qwen3 vượt qua DeepSeek-V3 trở thành mô hình AI mã nguồn mở hàng đầu thế giới ngay sau khi phát hành, theo LiveBench, một nền tảng bên thứ ba đánh giá các mô hình AI.

Trước khi Qwen3 được phát hành, DeepSeek-R1 giữ vị trí hàng đầu trong bảng xếp hạng LiveBench kể từ khi ra mắt vào tháng 1.

Các phát hành mới nhất của DeepSeek bao gồm một bản cập nhật nhỏ cho mô hình V3 vào cuối tháng 3 và một hệ thống chuyên biệt có tên Prover-V2 để xử lý các chứng minh toán học, công ty đã ra mắt một cách lặng lẽ vào cuối tháng 4 giữa những đồn đoán rộng rãi về ngày phát hành của người kế nhiệm R1.

DeepSeek paper offers new details on how it used 2,048 Nvidia chips to take on OpenAI

In a paper co-authored by founder Liang Wenfeng, the start-up attributes its success to a hardware-software co-design approach

Reading Time:2 minutes

Ben Jiangin Beijing

Published: 7:00pm, 16 May 2025

Chinese artificial intelligence (AI) research lab DeepSeek has released a new research paper revealing in detail for the first time how it built one of the world’s most powerful open-source AI systems at a fraction of the cost of its competitors.

“Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures”, co-authored by DeepSeek founder Liang Wenfeng and released on Wednesday, attributes the start-up’s breakthrough in training high-performance, cost-efficient AI systems to a hardware-software co-design approach.

“DeepSeek-V3, trained on 2,048 Nvidia H800 GPUs, demonstrates how hardware-aware model co-design can effectively address these challenges, enabling cost-efficient training and inference at scale,” the researchers wrote. DeepSeek and its hedge fund owner High-Flyer had previously stockpiled the H800, which Nvidia originally designed for the China market to comply with US export restrictions but were banned from export to to the country in 2023.

The start-up’s training approach stemmed from the team’s awareness of hardware constraints and the “exorbitant costs” of training large language models (LLMs) – the technology behind AI chatbots such as OpenAI’s ChatGPT – according to the paper.

The paper details technical optimisations that boost memory efficiency, streamline inter-chip communication, and enhance overall AI infrastructure performance – key advancements for reducing operational costs while scaling capabilities. These offer a “practical blueprint for innovation in next-generation AI systems”, the researchers said.

DeepSeek also highlighted its use of a mixture-of-experts (MoE) model architecture, a machine-learning approach that divides an AI model into separate sub-networks, or experts, each focused on a subset of the input data while working collaboratively.

The method, said to reduce pre-training computational costs and achieve faster performance during inference, has now been widely adopted by other Chinese AI developers, including Alibaba Group Holding in its latest Qwen3 model family, in which six variants use the MoE architecture.

DeepSeek’s release of its foundational V3 model in December and then the R1 reasoning model the following month shocked the global technology industry and stock markets, tanking AI-related stocks.

Since then, the company has kept quiet about its future research plans but has maintained public interest with regular research releases.

Meanwhile, the race among Chinese technology players to claim new advances has accelerated. In the six months since the release of V3, Chinese tech giants have launched a slew of new AI systems to take on the start-up, with fresh promises to focus on open-source tech going forward.

Baidu last month launched its latest Ernie 4.5 Turbo and X1 Turbo models, boasting multimodal reasoning capabilities and a price that is 40 per cent lower than DeepSeek-V3.

Alibaba, which owns the South China Morning Post, introduced last month the latest generation of its Qwen models. Qwen3 topped DeepSeek-V3 as the world’s top open-source AI model shortly after its release, according to LiveBench, a third-party platform that benchmarks AI models.

Before the Qwen3 release, DeepSeek-R1 held the top position in the LiveBench rankings since its January release.

DeepSeek’s latest releases include a small update to its V3 model in late March and a specialist system called Prover-V2 for handling maths proofs, which the company launched quietly at the end of April amid broad speculation about the release date of its R1 successor.

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2025-05-13 07:05:58

OpenVision ra mắt: mã hóa thị giác nguồn mở vượt mặt CLIP và SigLIP

Đại học California, Santa Cruz vừa công bố OpenVision, một bộ mã hóa thị giác mã nguồn mở mới nhằm thay thế các mô hình nổi tiếng như CLIP (OpenAI) và SigLIP (Google).
OpenVision gồm 26 mô hình, từ 5.9 triệu đến 632.1 triệu tham số, cấp phép theo Apache 2.0, cho phép sử dụng thương mại tự do.
Các mô hình hỗ trợ nhiều kích thước patch (8×8, 16×16) và độ phân giải linh hoạt, thích hợp cho cả thiết bị biên lẫn trung tâm dữ liệu.
Dữ liệu huấn luyện dựa trên Recap-DataComp-1B, một tập dữ liệu hình ảnh web được tái chú thích bằng AI từ LLaVA.
OpenVision đạt hiệu suất cao hơn CLIP và SigLIP trong nhiều benchmark như:
- TextVQA
- ChartQA
- MME
- OCR
- SEED, SQA, POPE khi huấn luyện ở độ phân giải 224×224 và 336×336.
Chiến lược huấn luyện "progressive resolution" (tăng dần độ phân giải) giúp giảm chi phí tính toán 2–3 lần mà không mất độ chính xác.
Thiết kế thêm bộ giải mã văn bản phụ trợ và caption tổng hợp giúp mô hình học được biểu diễn ngữ nghĩa sâu hơn.
Ngay cả các mô hình nhỏ (dưới 250M tham số khi ghép với Smol-LM 150M) vẫn giữ độ chính xác tốt trong các tác vụ VQA và OCR, lý tưởng cho smartphone hoặc camera sản xuất.
Dành cho các nhóm kỹ thuật doanh nghiệp:
- Kỹ sư AI có thể tích hợp mô hình thị giác mạnh mẽ mà không phụ thuộc API đóng
- Kỹ sư dữ liệu có thể xử lý hình ảnh và văn bản song song
- Nhóm bảo mật có thể kiểm toán mô hình minh bạch, tránh rò rỉ dữ liệu
Tất cả mô hình có sẵn trên Hugging Face, hỗ trợ PyTorch và JAX, và đi kèm công cụ tích hợp với framework LLaVA.

📌 OpenVision mang đến một nền tảng mã hóa thị giác mã nguồn mở toàn diện với 26 mô hình linh hoạt, đánh bại CLIP và SigLIP trong nhiều bài benchmark. Dễ triển khai, chi phí thấp và bảo mật cao, đây là công cụ lý tưởng cho doanh nghiệp muốn tự chủ AI tạo sinh thị giác mà không phụ thuộc nhà cung cấp bên ngoài.

https://venturebeat.com/ai/new-fully-open-source-vision-encoder-openvision-arrives-to-improve-on-openais-clip-googles-siglip/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-05-10 07:29:55

DeepSeek tăng tốc độ AI nhờ giải pháp mã nguồn mở từ Tencent: Trung Quốc thúc đẩy chiến lược AI nguồn mở

DeepSeek – startup AI tiên phong tại Trung Quốc – công bố đã đạt “tăng tốc độ lớn” cho thư viện mã DeepEP nhờ tích hợp giải pháp kỹ thuật từ Tencent.
DeepEP là thư viện mã dùng cho giao tiếp giữa các chip, đặc biệt quan trọng trong đào tạo các mô hình AI reasoning hiệu suất cao.
Kỹ sư AI Zhao Chenggang của DeepSeek xác nhận giải pháp từ bộ phận nền tảng mạng của Tencent đã cải thiện hiệu năng truyền dữ liệu và tăng độ ổn định của DeepEP.
Giải pháp này dựa trên kinh nghiệm dày dặn của Tencent trong việc tối ưu trung tâm dữ liệu và truyền thông giữa GPU, vốn đã được áp dụng trong đào tạo mô hình Hunyuan AI.
Tencent đã mã nguồn mở công nghệ này, cho phép DeepSeek và các bên khác sử dụng, góp phần tăng cường sức mạnh cộng đồng mã nguồn mở AI tại Trung Quốc.
DeepSeek hiện đang lưu trữ các mô hình và dự án mã nguồn mở trên GitHub, trong đó có 8 dự án được công bố trong chiến dịch tháng 2/2025 nhằm chia sẻ toàn bộ chi tiết kỹ thuật của nền tảng AI reasoning giá rẻ, hiệu năng cao.
Sự hợp tác giữa DeepSeek và Tencent cho thấy xu hướng “liên minh mã nguồn mở” đang gia tăng tại Trung Quốc, nơi các công ty AI cạnh tranh khốc liệt nhưng cũng chia sẻ công nghệ để thu hẹp khoảng cách với phương Tây.
Theo cách tiếp cận mã nguồn mở, mã được công khai, ai cũng có thể xem, chỉnh sửa và đóng góp – thúc đẩy đổi mới thông qua cộng tác mở.
Alibaba – chủ sở hữu của South China Morning Post – là một trong những nhà ủng hộ lớn nhất chiến lược mã nguồn mở, với loạt mô hình Qwen nằm trong top 10 toàn cầu và tạo ra hơn 100.000 mô hình phái sinh.
DeepSeek R1 và Alibaba Qwen 3 hiện là hai mô hình AI mã nguồn mở mạnh nhất thế giới theo bảng xếp hạng LiveBench.
Trong khi đó, OpenAI dự kiến phát hành mô hình AI mã nguồn mở thế hệ trước để tránh thúc đẩy sự cạnh tranh từ Trung Quốc, theo CPO Kevin Weil.

📌 DeepSeek đã tăng tốc hệ thống AI nhờ giải pháp từ Tencent, minh chứng cho chiến lược mã nguồn mở đang lan rộng tại Trung Quốc. Cùng với Qwen của Alibaba, DeepSeek R1 hiện đứng đầu thế giới trong lĩnh vực AI nguồn mở, cho thấy sức mạnh từ cộng tác thay vì cạnh tranh đơn độc.

https://www.scmp.com/tech/big-tech/article/3309438/deepseek-gets-technical-boost-tencent-china-embraces-open-source-ai

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI so sánh 2025-05-07 06:13:09

Alibaba Qwen3 vượt qua DeepSeek R1 để trở thành mô hình AI mã nguồn mở hàng đầu thế giới

Theo bảng xếp hạng LiveBench, Qwen3 của Alibaba chính thức vượt qua DeepSeek R1 và trở thành mô hình AI mã nguồn mở đứng đầu thế giới.
LiveBench đo lường khả năng của các mô hình AI trong các tác vụ như lập trình, toán học, phân tích dữ liệu và hướng dẫn ngôn ngữ – Qwen3 vượt trội ở tất cả các hạng mục này.
Qwen3 là dòng mô hình mới ra mắt của Alibaba Cloud, bao gồm 8 phiên bản từ 600 triệu đến 235 tỷ tham số, trong đó bản MoE dùng ít tài nguyên nhưng hiệu quả cao.
Trước đó, DeepSeek R1 giữ vị trí số 1 kể từ tháng 1/2025, gây tiếng vang lớn nhờ hiệu năng cao với chi phí thấp.
Dù vậy, trên tổng thể, Qwen3 vẫn xếp sau các mô hình đóng mã nguồn như OpenAI o3, Gemini Pro 2.5 và Claude 3.7 – nhưng là mô hình mã nguồn mở dẫn đầu.
Chi phí vận hành Qwen3 cực thấp: chỉ 0,55 USD/1 triệu tokens, so với 10 USD của OpenAI o3 – giúp doanh nghiệp tiết kiệm lớn.
Các công ty lớn như Huawei, Cambricon, Moore Threads, Hygon và các trung tâm dữ liệu ở Bắc Kinh, Thượng Hải, Hàng Châu, Hồ Bắc… đã hỗ trợ và triển khai Qwen3 rộng rãi.
Cambricon cho biết họ đã tối ưu Qwen3 chạy trên GPU nội địa, mở rộng khả năng tự chủ về hạ tầng AI tại Trung Quốc.
Qwen3 cũng được tích hợp trên nền tảng AI của Hyperbolic, Fireworks.ai và được Nvidia, Intel bắt đầu hỗ trợ.
Hệ thống Mạng siêu máy tính quốc gia Trung Quốc, kết nối hơn 20 trung tâm tính toán tại 14 tỉnh, cũng đã chấp nhận Qwen3 làm mô hình tiêu chuẩn.
Nền tảng Hugging Face từng xác nhận các phiên bản Qwen trước đó đã nằm trong top 10 mô hình mã nguồn mở hàng đầu thế giới, và giờ với Qwen3, Alibaba củng cố thêm vị thế toàn cầu.
Việc Qwen3 vươn lên dẫn đầu phản ánh tốc độ phát triển mạnh mẽ của ngành AI Trung Quốc, đặc biệt trong chiến lược mã nguồn mở tự chủ công nghệ.

📌 Qwen3 của Alibaba chính thức vượt DeepSeek R1 trên LiveBench, trở thành mô hình AI mã nguồn mở hàng đầu thế giới, với chi phí chỉ 0,55 USD/triệu tokens. Được hỗ trợ rộng rãi từ Huawei đến Nvidia, Qwen3 đang dẫn đầu làn sóng AI mã nguồn mở, giúp Trung Quốc thu hẹp khoảng cách công nghệ với Mỹ.

https://amp.scmp.com/tech/tech-trends/article/3309298/alibabas-qwen3-topples-deepseeks-r1-worlds-highest-ranked-open-source-ai-model

Không có file đính kèm.

Nguồn tham khảo

AI so sánh AI mở-nguồn mở 2025-05-07 05:58:44

So sánh toàn diện giữa Qwen 3 và DeepSeek R1 – hai mô hình AI mã nguồn mở hàng đầu hiện nay

Qwen 3 là dòng mô hình AI mới từ Alibaba, bao gồm Qwen3-235B-A22B (MoE, chỉ 22B tham số hoạt động) và Qwen3-30B-A3B nhẹ hơn (3B tham số hoạt động).
Qwen3-235B-A22B vượt qua nhiều benchmark hàng đầu như HumanEval, GSM8K, BoolQ, ARC-Challenge, MATH, Big-Bench Hard.
Cả hai phiên bản của Qwen3 đều sử dụng thiết kế Mixture of Experts, giúp tiết kiệm chi phí suy luận lên đến 90% so với mô hình thông thường.
Trong bài toán tạo ứng dụng ghi chú, Qwen3 cho kết quả nhanh, thân thiện với người dùng, còn DeepSeek R1 tốn thời gian hơn.
Với trò chơi Conway's Game of Life, Qwen3 cung cấp code đơn giản và mẫu thử dễ dùng, trong khi DeepSeek R1 yêu cầu tệp test và phức tạp hơn.
Trong bài toán tạo hình SVG con bướm, Qwen3 tạo ra hình ảnh chính xác và cân xứng hơn so với kết quả hoạt hình của DeepSeek R1.
Ở bài toán suy luận “ai là người phạm tội?”, cả hai mô hình đều ra đáp án đúng là David, nhưng DeepSeek nhanh hơn 40 giây.
Trong bài toán lập kế hoạch đi tham quan, cả hai mô hình cho ra kết quả giống nhau nhưng Qwen3 trình bày logic rõ ràng hơn.
Với bài toán toán học về hai đoàn tàu gặp nhau, Qwen3 xử lý logic rõ ràng, tính đúng thời điểm 1:12 PM, trong khi DeepSeek chuyển đổi phương pháp khiến mất thời gian.
Trong câu hỏi tính toán nhiên liệu trong trò chơi đua xe, DeepSeek R1 cho kết quả chính xác 27,3L và khuyến nghị thêm, còn Qwen3 chỉ ra 26,4L và gợi ý dự phòng.
Trong phần viết, Qwen3 chia rõ 3 phần nội dung, tóm tắt rõ ràng, trong khi DeepSeek R1 viết dồn thành khối khó đọc.
Về tổng thể, Qwen3 vượt trội ở khả năng lập trình, viết lách và xử lý bài toán chuẩn xác; DeepSeek R1 có lợi thế ở tốc độ phản hồi và bài toán logic phức tạp.
Cả hai đều là lựa chọn AI mã nguồn mở mạnh mẽ, nhưng Qwen3 nổi bật nhờ khả năng toàn diện, chi phí thấp và hỗ trợ triển khai cục bộ.

📌 Qwen 3 nổi bật nhờ thiết kế MoE hiệu quả (chỉ 10% tham số hoạt động), vượt mặt DeepSeek R1 trong lập trình, viết và bài toán thực tế. DeepSeek R1 vẫn có lợi thế về tốc độ và giải toán phức tạp. Với benchmark cao, chi phí thấp và mã nguồn mở (Apache 2.0), Qwen 3 là lựa chọn lý tưởng thay thế GPT-4 Omni.

https://dev.to/composiodev/qwen-3-vs-deep-seek-r1-evaluation-notes-1bi1

Không có file đính kèm.

Nguồn tham khảo

106

AI mở-nguồn mở AI benchmark 2025-05-05 06:33:10

Đánh giá Qwen3 – mô hình AI tạo sinh nguồn mở mới nhất của Alibaba Cloud, hỗ trợ 119 ngôn ngữ

Qwen3 là thế hệ mới nhất của mô hình ngôn ngữ lớn (LLM) nguồn mở từ Alibaba Cloud, phát hành ngày 29.04.2025, cấp phép Apache 2.0, phù hợp dùng thương mại.
Có 8 phiên bản: từ 0.6B đến 32B tham số dạng dense và hai dạng MoE là Qwen3-235B (235 tỷ/22 tỷ tham số hoạt động cùng lúc), Qwen3-30B (30 tỷ/3 tỷ tham số hoạt động). Dung lượng bối cảnh tối đa tới 128.000 tokens.
Kiến trúc Mixture-of-Experts (MoE) giúp mô hình lớn nhưng tiết kiệm tài nguyên – ví dụ Qwen3-235B chỉ dùng 22B tham số khi xử lý, giảm chi phí GPU.
Được huấn luyện trên 36 nghìn tỷ tokens, phủ 119 ngôn ngữ, bao gồm dữ liệu web, sách, PDF, code và toán tổng hợp.
Qwen3-235B dẫn đầu benchmark CodeForces Elo Rating, BFCL, LiveCodeBench v5; chỉ thua Gemini 2.5 Pro ở ArenaHard, AIME, MultilF, Aider Pass@2.
Qwen3-30B vượt trội về tốc độ và độ chính xác với các mô hình nguồn mở khác, chỉ bị QwQ-32B hay GPT-4o vượt qua ở một số chỉ số chuyên biệt.
Có hai chế độ “thinking” (suy nghĩ sâu đa bước) và “non-thinking” (phản hồi nhanh, gọn), tự động chuyển theo ngữ cảnh/tác vụ người dùng.
Được tối ưu cho lập trình, giải toán, tư duy logic, tạo tác nhân AI, sử dụng công cụ, duyệt web; Qwen3-4B thậm chí vượt cả mô hình 72B cũ ở một số nhiệm vụ lập trình.
Có thể tải xuống từ Hugging Face, GitHub, Ollama cùng hướng dẫn chi tiết về tokenizer, tinh chỉnh, triển khai.

📌 Qwen3 của Alibaba Cloud là AI tạo sinh nguồn mở đa ngôn ngữ, có đến 235 tỷ tham số với kiến trúc MoE tiết kiệm GPU, dẫn đầu nhiều chỉ số benchmark về lập trình, logic và tác nhân AI. Mô hình dễ tích hợp, phù hợp ứng dụng thương mại, hỗ trợ tới 119 ngôn ngữ.

https://bestcodes.dev/blog/qwen-3-what-you-need-to-know

Không có file đính kèm.

Nguồn tham khảo

AI nhỏ AI mở-nguồn mở 2025-05-02 01:39:09

Qwen2.5-Omni-3B chạy đa phương thức trên PC, laptop phổ thông, hiệu năng đáng kinh ngạc

Alibaba vừa ra mắt Qwen2.5-Omni-3B – phiên bản 3 tỷ tham số, nhỏ gọn của mô hình đa phương thức Qwen2.5-Omni, có thể chạy trực tiếp trên PC và laptop phổ thông.
Model này giữ trên 90% hiệu năng của phiên bản lớn (7B) dù chỉ bằng ½ số tham số (3B vs 7B).
Qwen2.5-Omni-3B xử lý mượt mà cả văn bản, âm thanh, hình ảnh và video; hỗ trợ tạo sinh đồng thời văn bản và âm thanh theo thời gian thực.
Tối ưu bộ nhớ GPU mạnh mẽ: xử lý dải input dài 25.000 tokens chỉ cần 28.2 GB VRAM, giảm hơn 50% so với bản 7B (60.2 GB), có thể chạy trên GPU phổ biến 24GB ở desktop/laptop; không cần cụm GPU lớn.
Thiết kế kiến trúc tối ưu gồm Thinker-Talker, embedding vị trí tùy biến TMRoPE giúp đồng bộ video-audio.
Hiệu suất benchmark:
- OmniBench (lý luận đa phương thức): 52,2 (so với 56,1 của 7B)
- VideoBench (hiểu âm thanh): 68,8 (so với 74,1)
- MMMU (lý luận hình ảnh): 53,1 (so với 59,2)
- MVBench (lý luận video): 68,7 (so với 70,3)
- Seed-tts-eval (tạo sinh giọng nói): 92,1 (so với 93,5)
Tính năng cá nhân hóa giọng nói: chọn 2 voice (Chelsie nữ, Ethan nam), tùy mục đích ứng dụng.
Có thể tắt tạo âm thanh để giảm thêm bộ nhớ, linh hoạt đầu ra văn bản hoặc audio.
Hỗ trợ Hugging Face, Docker, vLLM, FlashAttention 2, BF16, lưu trữ trên Hugging Face, GitHub, ModelScope.
Nguồn mở cho nghiên cứu, cấm sử dụng thương mại nếu không xin giấy phép riêng từ Alibaba. Được phép thử nghiệm, tinh chỉnh nội bộ.
Qwen2.5-Omni-3B phù hợp để làm testbed thử nghiệm tính khả thi, tinh chỉnh pipeline nội bộ, đánh giá kiến trúc trước khi thương mại hóa.
Dễ tiếp cận AI đa phương thức cho cá nhân, đội nhóm nghiên cứu nhờ rào cản phần cứng thấp, nhưng cần lưu ý hạn chế pháp lý về thương mại.

📌 Alibaba ra mắt Qwen2.5-Omni-3B – mô hình AI đa phương thức chỉ 3 tỷ tham số, chạy mượt trên laptop/PC phổ thông, giảm VRAM hơn 50%, hiệu năng đạt trên 90% bản lớn, nhưng bị hạn chế sử dụng thương mại nếu chưa xin phép, phù hợp thử nghiệm, nghiên cứu AI đa phương thức.

https://venturebeat.com/ai/qwen-swings-for-a-double-with-2-5-omni-3b-model-that-runs-on-consumer-pcs-laptops/

Không có file đính kèm.

Nguồn tham khảo

AI nhỏ AI mở-nguồn mở 2025-05-02 00:36:04

Microsoft ra mắt Phi-4-Reasoning-Plus với 14 tỷ tham số, mã nguồn mở, lý luận vượt trội

Microsoft Research công bố Phi-4-Reasoning-Plus – mô hình ngôn ngữ 14 tỷ tham số chuyên lý luận, mã nguồn mở, mạnh mẽ và tối ưu cho các tác vụ toán học, khoa học, lập trình và logic.
Mô hình áp dụng kiến trúc Transformer dạng dense decoder-only, đào tạo trên 16 tỷ token (8,3 tỷ token độc nhất) lấy từ dữ liệu tổng hợp cùng dữ liệu web được chọn lọc.
Tinh chỉnh với học tăng cường (reinforcement learning) sử dụng khoảng 6.400 bài toán toán học giúp tăng cường năng lực lý luận của mô hình.
Phát hành theo giấy phép MIT dễ dàng cho thương mại, tinh chỉnh, distill, không ràng buộc – tương thích với Hugging Face Transformers, vLLM, llama.cpp và Ollama.
Dù chỉ 14 tỷ tham số, Phi-4-Reasoning-Plus vẫn vượt hiệu năng nhiều mô hình lớn hơn như DeepSeek-R1-Distill-70B trên các chuẩn đối chiếu.
Trên AIME 2025, mô hình đạt tỉ lệ pass@1 cao hơn Distill-70B (70 tỷ tham số), gần bằng “anh cả” DeepSeek-R1 (671 tỷ tham số).
Quá trình huấn luyện nhấn mạnh tách biệt các bước suy luận trung gian với kết quả cuối cùng thông qua token <think> và </think>, tăng độ minh bạch và chặt chẽ trong lập luận.
RL sử dụng thuật toán GRPO, tối ưu hóa cân bằng giữa độ chính xác, súc tích, tránh lặp lại, và nhất quán định dạng – giúp mô hình trả lời sâu sắc hơn, đặc biệt với câu hỏi khó.
Hỗ trợ ngữ cảnh (context) mặc định 32.000 token, thử nghiệm ổn định đến 64.000 token – thích hợp cho ứng dụng xử lý tài liệu, phân tích pháp lý, mô hình tài chính.
Tối ưu cho môi trường hạn chế bộ nhớ/độ trễ, hiệu quả trong chat, tích hợp dễ dàng nhờ hướng dẫn chi tiết về tham số và prompt tối ưu.
Microsoft đã kiểm tra an toàn kỹ lưỡng bằng red-team nội bộ và công cụ như Toxigen, khuyến cáo kiểm tra thêm trước khi dùng trong môi trường rủi ro cao.
Định dạng xuất suy luận trung gian dễ tích hợp vào hệ thống kiểm toán, hạ tầng logging, nâng cao explainability.
Các nhóm kỹ thuật có thể tiết kiệm chi phí hạ tầng, tận dụng mô hình nhỏ nhưng hiệu năng “gần đại gia” cho bài toán thực tế.
Mô hình thể hiện khả năng khái quát hoá ra ngoài miền huấn luyện, giải được cả bài toán NP-hard như 3SAT, TSP, ứng dụng mạnh trong hỗ trợ quyết định, hoạch định thuật toán.
Dành cho lãnh đạo kỹ thuật doanh nghiệp: giải pháp linh hoạt, dễ mở rộng, kiểm soát rủi ro, tối ưu chi phí trong triển khai AI tạo sinh.

📌 Phi-4-Reasoning-Plus của Microsoft chỉ 14 tỷ tham số nhưng hiệu năng vượt nhiều “ông lớn”, cho phép thương mại, tích hợp linh hoạt, lý luận vượt trội các bài toán toán học, logic, lập trình. Định dạng kết quả tăng tính minh bạch, hỗ trợ phân tích sâu, kiểm toán. An toàn được kiểm thử toàn diện, tối ưu chi phí vận hành cho doanh nghiệp.

https://venturebeat.com/ai/microsoft-launches-phi-4-reasoning-plus-a-small-powerful-open-weights-reasoning-model/

Không có file đính kèm.

Nguồn tham khảo

AI cybersecurity AI mở-nguồn mở 2025-05-01 08:01:49

Meta ra mắt LlamaFirewall, framework nguồn mở giúp bảo vệ hệ thống AI khỏi tấn công

Meta công bố framework nguồn mở LlamaFirewall, nhằm bảo vệ ứng dụng AI trước các rủi ro như prompt injection, jailbreak và sinh mã không an toàn.
LlamaFirewall gồm 3 lớp bảo vệ: PromptGuard 2 (phát hiện jailbreak và prompt injection trực tiếp theo thời gian thực), Agent Alignment Checks (kiểm tra suy luận của agent, phát hiện chiếm quyền mục tiêu và prompt injection gián tiếp), CodeShield (công cụ phân tích tĩnh online, chặn AI sinh ra mã nguy hiểm).
Thiết kế modular, cho phép đội ngũ bảo mật tùy chỉnh lớp phòng thủ từ đầu vào đến đầu ra, áp dụng linh hoạt cho cả chatbot lẫn hệ thống agent tự động phức tạp.
Meta đồng thời nâng cấp LlamaGuard (giúp phát hiện nội dung vi phạm) và CyberSecEval (đánh giá khả năng phòng thủ bảo mật của hệ thống AI).
CyberSecEval 4 bổ sung AutoPatchBench – bộ benchmark nhằm kiểm tra năng lực AI tự động sửa lỗi bảo mật C/C++ được phát hiện qua fuzzing. Đây là tiêu chuẩn mới để đo lường hiệu quả của AI trong việc “vá lỗi” phần mềm.
Chương trình Llama for Defenders ra mắt, cung cấp giải pháp AI nguồn mở, bản truy cập sớm hoặc đóng cho các tổ chức bảo mật, cho phép phát hiện nội dung AI tạo sinh sử dụng trong lừa đảo, phishing, scam.
WhatsApp hé lộ công nghệ Private Processing giúp khai thác AI mà không lộ dữ liệu người dùng, các thao tác xử lý AI được bảo hộ trong môi trường bảo mật riêng biệt.
Meta cam kết hợp tác cùng cộng đồng an ninh mạng để kiểm thử, cải thiện kiến trúc bảo mật, đồng phát triển các giải pháp AI phòng thủ trước khi triển khai rộng rãi.

📌 Meta lần đầu trình làng LlamaFirewall – công cụ nguồn mở bảo vệ AI gồm các lớp chống jailbreak, prompt injection, sinh mã nguy hiểm, kèm hệ benchmark AutoPatchBench, chương trình Defender và công nghệ bảo mật Private Processing trên WhatsApp; tăng cường phòng thủ AI tạo sinh, giúp tổ chức sớm ứng phó loạt mối đe dọa mới.

https://thehackernews.com/2025/04/meta-launches-llamafirewall-framework.html?m=1

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-05-01 06:05:14

DeepSeek nâng cấp mô hình toán học nguồn mở Prover-V2 với 671 tỷ tham số

DeepSeek vừa công bố mô hình AI toán học nguồn mở mới nhất, DeepSeek-Prover-V2-671B, trên Hugging Face, tích hợp 671 tỷ tham số và dựa trên kiến trúc DeepSeek-V3.
Mô hình này gồm 61 lớp Transformer, kích thước ẩn 7.168, hỗ trợ xử lý ngữ cảnh dài với embedding vị trí lên đến 163.840 tokens.
Prover-V2 tương thích định dạng file safetensors, nhiều loại độ chính xác (precision) nhằm tối ưu hiệu suất huấn luyện và triển khai. Tích hợp FP8 quantization giúp giảm kích thước và cải thiện tốc độ suy luận.
Đây là bản nâng cấp từ mô hình Prover-V1.5 ra mắt năm ngoái.
Xu hướng mới trong AI là tăng cường năng lực lập luận toán học, được xem như yếu tố chủ lực thúc đẩy phát triển AI và đổi mới nghiên cứu khoa học.
AI toán học mở ra khả năng tự động hóa chứng minh định lý, tạo ra dự đoán và rút ngắn rào cản tham gia lĩnh vực toán học chuyên sâu.
DeepSeek cùng các hãng lớn như OpenAI, Alibaba liên tục thử sức mô hình trên các bài kiểm tra toán học danh giá như AIME, MATH-500.
Prover-V2 sử dụng kiến trúc Mixture-of-Experts (MoE) cho phép chỉ kích hoạt các submodel liên quan, giúp mô hình vận hành với 37 tỷ tham số hiệu dụng dù tổng số lượng là 671 tỷ.
Chiến lược này giảm mạnh chi phí tính toán, minh chứng qua việc DeepSeek chỉ tốn 5,6 triệu USD với 2.048 GPU Nvidia H800, tiết kiệm hơn khoảng 95% so với các đối thủ cùng cấu hình.
Việc sử dụng MoE đang là xu hướng chung của ngành AI, Llama 4 của Meta cũng áp dụng kiến trúc này để tối ưu hiệu năng mà không giảm chất lượng.
Chính sách mở của DeepSeek đã thu hút hơn 10 triệu lượt tải mô hình, hơn 500 mô hình phái sinh trên các nền tảng như Hugging Face kể từ khi ra mắt năm 2023.
Mô hình AI Trung Quốc như DeepSeek đang khẳng định vị thế toàn cầu dù đối mặt hạn chế về phần cứng tiên tiến do lệnh giới hạn xuất khẩu.
Alibaba đã giới thiệu QwQ-32B (32 tỷ tham số) để cạnh tranh trực diện với DeepSeek-R1 và OpenAI-o1, dù số tham số thấp hơn rất nhiều so với DeepSeek.

📌 DeepSeek-Prover-V2-671B gây chấn động khi hỗ trợ ngữ cảnh siêu dài, sử dụng MoE để vận hành hiệu quả với chỉ 37 tỷ tham số hiệu dụng. Chính sách nguồn mở, số lượt tải hơn 10 triệu, và hơn 500 mô hình phái sinh đang định hình lại cuộc chơi AI toán học toàn cầu.

https://www.techinasia.com/news/deepseek-releases-opensource-math-model-proverv2

DeepSeek phát hành mô hình toán học mã nguồn mở Prover-V2

DeepSeek đã ra mắt mô hình mới, DeepSeek-Prover-V2-671B, trên nền tảng mã nguồn mở Hugging Face. Mô hình này dựa trên kiến trúc DeepSeek-V3 và có 671 tỷ tham số.

DeepSeek-Prover-V2 bao gồm 61 lớp Transformer với kích thước ẩn 7.168. Mô hình hỗ trợ các tác vụ ngữ cảnh dài với giới hạn nhúng vị trí lên đến 163.840 token.

Mô hình tương thích với định dạng tệp safetensors và nhiều loại độ chính xác khác nhau để nâng cao hiệu quả đào tạo và triển khai. Mô hình cũng tích hợp lượng tử hóa FP8 để giảm kích thước và cải thiện hiệu suất suy luận.

Phiên bản này là bản nâng cấp từ mô hình Prover-V1.5 được giới thiệu vào năm ngoái.

🧠 Điểm đáng suy nghĩ

1️⃣ Suy luận toán học nổi lên như biên giới mới của AI

Mô hình 671 tỷ tham số của DeepSeek thể hiện sự tập trung ngày càng tăng vào khả năng suy luận toán học đang định hình lại các ưu tiên phát triển AI trong toàn ngành.
Sự chuyển dịch này theo sau tiến trình lịch sử khi khả năng AI đã phát triển từ mạng neural cơ bản trong những năm 1940 đến các hệ thống suy luận tinh vi ngày nay.
Các nhà toán học hàng đầu hiện dự đoán AI sẽ biến đổi nghiên cứu toán học bằng cách tự động hóa quá trình phát triển chứng minh, tạo ra các giả thuyết, và giảm rào cản gia nhập trong các lĩnh vực toán học phức tạp.
Sự tích hợp của AI với suy luận toán học hình thức được coi là thiết yếu để thúc đẩy khám phá trong toán học và các lĩnh vực khoa học liên quan, với ứng dụng mở rộng đến xác minh phần mềm và chứng minh định lý.
Sự tập trung vào suy luận toán học đã trở thành chuẩn mực cạnh tranh quan trọng, với các công ty như DeepSeek, OpenAI và Alibaba đặc biệt nhấn mạnh hiệu suất của mô hình của họ trên các bài kiểm tra toán học như AIME và MATH-500.

2️⃣ Kiến trúc Mixture-of-Experts thúc đẩy hiệu quả trong các mô hình khổng lồ

Việc DeepSeek sử dụng phương pháp Mixture-of-Experts (MoE) chứng minh cách các nhà phát triển AI đang giải quyết thách thức về hiệu quả tính toán trong các mô hình quy mô lớn.
Kiến trúc này chỉ kích hoạt các mô hình con liên quan cho các tác vụ cụ thể, cho phép mô hình R1 của DeepSeek sử dụng hiệu quả chỉ 37 tỷ trong số 671 tỷ tham số của nó trong quá trình hoạt động, giảm đáng kể yêu cầu tính toán.
Lợi ích hiệu quả từ kiến trúc MoE đã trở thành xu hướng toàn ngành, với các mô hình Llama 4 của Meta cũng sử dụng kỹ thuật này để tối ưu hóa suy luận mà không ảnh hưởng đến hiệu suất.
DeepSeek đã phát triển mô hình R1 với chi phí khoảng 5,6 triệu USD sử dụng 2.048 GPU Nvidia H800 - được báo cáo là khoảng 5% chi phí của các mô hình cạnh tranh có khả năng tương tự - nhấn mạnh cách các đổi mới kiến trúc đang làm cho AI tiên tiến trở nên dễ tiếp cận hơn về mặt kinh tế.
Phương pháp này đã cho phép DeepSeek duy trì hiệu suất tương đương với các hệ thống độc quyền lớn hơn trong khi cung cấp công nghệ của mình dưới giấy phép cho phép, góp phần tạo ra hơn 500 mô hình phái sinh trên các nền tảng như Hugging Face.

3️⃣ Các mô hình mã nguồn mở thách thức sự thống trị của AI độc quyền

Việc DeepSeek phát hành mô hình của mình trên Hugging Face tiếp tục một sự thay đổi đáng kể trong bối cảnh AI, nơi các giải pháp thay thế mã nguồn mở ngày càng cạnh tranh với các hệ thống đóng từ các công ty công nghệ lớn.
Các phiên bản mô hình của công ty đã đạt được hơn 10 triệu lượt tải xuống, thể hiện sự áp dụng đáng kể của nhà phát triển mặc dù là một công ty mới thành lập vào năm 2023.
Các mô hình AI Trung Quốc như của DeepSeek đang nổi lên như những đối thủ cạnh tranh toàn cầu đáng kể bất chấp những thách thức về quy định và hạn chế xuất khẩu giới hạn quyền truy cập vào phần cứng tiên tiến nhất như chip mạnh nhất của Nvidia.
Cuộc cạnh tranh này đang thúc đẩy đổi mới trong toàn ngành về khả năng suy luận toán học, với Alibaba gần đây đã ra mắt QwQ-32B để cạnh tranh trực tiếp với R-1 của DeepSeek và o1 của OpenAI, mặc dù có ít tham số hơn đáng kể (32 tỷ so với 671 tỷ của DeepSeek).

Không có file đính kèm.

Nguồn tham khảo

AI models AI mở-nguồn mở 2025-04-29 07:31:10

Alibaba ra mắt Qwen 3 – dòng mô hình AI “lai” mới với khả năng suy luận vượt trội, hỗ trợ 119 ngôn ngữ

Alibaba vừa công bố Qwen 3 – dòng mô hình AI "lai" mới, có khả năng suy luận cao và hỗ trợ đến 119 ngôn ngữ, với kích thước từ 0,6 tỷ đến 235 tỷ tham số.
Mô hình lớn nhất, Qwen-3-235B-A22B, đánh bại OpenAI o3-mini và Google Gemini 2.5 Pro trong các bài kiểm tra như AIME và BFCL nhưng hiện chưa được phát hành công khai.
Qwen 3 sử dụng kiến trúc hỗn hợp (hybrid) với hai chế độ hoạt động: chế độ "suy nghĩ" cho các tác vụ phức tạp và chế độ "không suy nghĩ" để trả lời nhanh – người dùng có thể tùy chỉnh ngân sách suy luận theo nhu cầu.
Một số mô hình áp dụng kiến trúc mixture of experts (MoE), phân chia tác vụ cho các "chuyên gia" nhỏ hơn, giúp tăng hiệu suất tính toán.
Dữ liệu huấn luyện cho Qwen 3 bao gồm gần 36 nghìn tỷ tokens, từ sách giáo khoa, cặp hỏi-đáp, đoạn mã code, dữ liệu AI tạo sinh và các nguồn khác.
Mô hình Qwen3-32B (có thể tải xuống công khai) vượt trội hơn cả mô hình o1 của OpenAI trong một số bài kiểm tra như LiveCodeBench.
Tích hợp tốt khả năng gọi công cụ (tool-calling), làm theo hướng dẫn, và sao chép định dạng dữ liệu cụ thể.
Alibaba cung cấp các mô hình này qua các nền tảng như Hugging Face, GitHub, và dịch vụ đám mây Fireworks AI, Hyperbolic.
Việc Mỹ thắt chặt việc bán chip sang Trung Quốc không ngăn được đà phát triển AI, khi Qwen 3 cho thấy mô hình nguồn mở vẫn có thể ngang tầm với hệ thống đóng như OpenAI.
Các nhà lãnh đạo ngành AI cho rằng Qwen 3 đại diện cho xu hướng doanh nghiệp vừa tự phát triển mô hình vừa kết hợp sử dụng dịch vụ AI thương mại.

📌 Alibaba ra mắt Qwen 3 với mô hình lên tới 235 tỷ tham số, vượt qua các đối thủ Mỹ trong nhiều bài kiểm tra. Hỗ trợ 119 ngôn ngữ và tích hợp hybrid reasoning, Qwen 3 thể hiện sự tiến bộ đáng kể của AI nguồn mở Trung Quốc, thách thức trực tiếp các công ty như OpenAI và Google.

Bạn có muốn mình tóm tắt thêm bằng tiếng Anh hoặc hỗ trợ so sánh với mô hình khác không?

https://techcrunch.com/2025/04/28/alibaba-unveils-qwen-3-a-family-of-hybrid-ai-reasoning-models/

Không có file đính kèm.

Nguồn tham khảo

AI tools AI mở-nguồn mở 2025-04-27 06:33:36

Microsoft tung MarkItDown – công cụ nguồn mở chuyển đổi mọi file sang Markdown cho AI tạo sinh

MarkItDown là công cụ nguồn mở do Microsoft phát triển, giúp chuyển đổi đa dạng định dạng file (PDF, Office, hình ảnh, âm thanh, HTML, JSON, XML) sang Markdown, phục vụ tối ưu cho AI tạo sinh và hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài.
Công cụ này có hai phiên bản: thư viện Python và công cụ dòng lệnh, nhanh chóng thu hút cộng đồng phát triển với khoảng 50.000 sao trên GitHub chỉ sau vài tháng ra mắt.
MarkItDown nổi bật với khả năng bảo toàn cấu trúc tài liệu (tiêu đề, danh sách, bảng, liên kết), giúp dữ liệu đầu vào phù hợp cho pipeline phân tích văn bản và huấn luyện LLM.
Hỗ trợ đa phương thức: dùng OCR để trích xuất văn bản từ hình ảnh, nhận diện giọng nói để chuyển âm thanh thành văn bản, và tích hợp LLM (ví dụ GPT-4o) để mô tả hình ảnh sang Markdown.
Kiến trúc module, dễ mở rộng nhờ cơ chế plug-in, cho phép thêm bộ chuyển đổi mới cho các định dạng chưa hỗ trợ.
Xử lý file trực tiếp trong bộ nhớ, không cần tạo file tạm, tăng tốc độ và bảo mật dữ liệu.
Một số hạn chế: không xử lý được PDF chưa qua OCR, mất định dạng khi chuyển PDF (tiêu đề, danh sách), chưa nhận diện được văn bản trong ảnh nhúng trong PDF, phải cấu hình LLM ngoài để mô tả hình ảnh, và còn tồn tại lỗi như trích xuất liên kết hình ảnh sai hoặc mất dữ liệu động khi chuyển HTML.
Ứng dụng chính: chuẩn hóa dữ liệu cho huấn luyện LLM, xây dựng kho tri thức doanh nghiệp, pipeline phân tích văn bản, di trú nội dung sang hệ thống tài liệu hiện đại.
MarkItDown sử dụng nhiều thư viện mạnh như python-docx, pandas, python-pptx, BeautifulSoup, speech_recognition, pdfminer.six để xử lý từng định dạng file khác nhau.
Dù chủ yếu là wrapper cho thư viện bên ngoài, MarkItDown vẫn tạo giá trị lớn nhờ đơn giản hóa quy trình chuẩn hóa dữ liệu, cho phép mở rộng, giấy phép MIT tự do sử dụng và tập trung bảo toàn cấu trúc tài liệu.

📌 MarkItDown của Microsoft là công cụ nguồn mở mạnh mẽ giúp chuyển đổi nhiều định dạng file sang Markdown, lý tưởng cho AI tạo sinh và RAG. Công cụ hỗ trợ đa phương thức, bảo toàn cấu trúc tài liệu, dễ mở rộng, tuy còn một số hạn chế về PDF và phụ thuộc thư viện ngoài. Với khoảng 50.000 sao GitHub, MarkItDown đang trở thành lựa chọn hàng đầu cho chuẩn hóa dữ liệu AI.

https://www.infoworld.com/article/3963991/markitdown-microsofts-open-source-tool-for-markdown-conversion.html

Không có file đính kèm.

Nguồn tham khảo

109

AI mở-nguồn mở 2025-04-26 05:30:29

Meta và Booz Allen hợp tác triển khai Space Llama – AI tạo sinh nguồn mở đầu tiên trên trạm vũ trụ ISS

Meta và Booz Allen Hamilton vừa triển khai thành công Space Llama – bộ AI tạo sinh nguồn mở đầu tiên ứng dụng trên Trạm Vũ trụ Quốc tế (ISS), sử dụng Llama 3.2 đã được tinh chỉnh, kết hợp phần cứng Spaceborne Computer-2 của Hewlett Packard Enterprise và GPU Nvidia.
Space Llama giúp phi hành gia ISS thay thế tài liệu giấy, giảm phụ thuộc vào chỉ đạo từ mặt đất, tăng tốc độ xử lý khi gặp sự cố bảo trì hoặc bất thường trên tàu mà không cần kết nối Internet với Trái Đất.
Bộ AI này tích hợp nền tảng A2E2 (AI for Edge Environments) của Booz Allen, cho phép vận hành độc lập, tiết kiệm năng lượng, phù hợp môi trường hạn chế về nguồn lực tính toán, truyền thông và điện năng như không gian.
Space Llama hỗ trợ đa phương thức: xử lý văn bản, hình ảnh, truy xuất nhanh tài liệu kỹ thuật, hướng dẫn sửa chữa, giúp phi hành gia tự chủ hơn trong nghiên cứu và vận hành ISS.
Dự án này kế thừa thành công của Booz Allen khi triển khai mô hình ngôn ngữ lớn đầu tiên ngoài không gian vào tháng 8/2024, nâng cấp với khả năng AI tạo sinh và thị giác máy tính của Llama 3.2.
Mục tiêu dài hạn: giảm chi phí, tăng hiệu quả bảo trì, mở rộng ứng dụng AI cho các môi trường “biên” như vệ tinh, thiết bị tự động, thậm chí cả các ngành dầu khí, năng lượng, quốc phòng, chính phủ và doanh nghiệp nhỏ.
Space Llama chứng minh AI nguồn mở có thể hoạt động ổn định trong môi trường “bị từ chối, gián đoạn, băng thông hạn chế”, mở đường cho ứng dụng AI trong các sứ mệnh Mặt Trăng, Sao Hỏa và tự động hóa vệ tinh, drone thế hệ mới.
Dự án được đánh giá là bước tiến quan trọng giúp Hoa Kỳ giữ lợi thế cạnh tranh về công nghệ không gian và AI, đồng thời truyền cảm hứng cho doanh nghiệp nhỏ áp dụng AI nguồn mở để tối ưu vận hành, bảo mật dữ liệu và tăng khả năng thích ứng.
Theo Meta, AI tạo sinh nguồn mở như Llama sẽ đóng vai trò thiết yếu trong nghiên cứu, khám phá không gian, giúp giải quyết bài toán khoa học phức tạp và thúc đẩy đổi mới sáng tạo ở cấp độ chưa từng có.
Trong bối cảnh NASA vừa cắt giảm ngân sách, đóng cửa 3 phòng ban do chính sách tiết kiệm của DOGE (Elon Musk), việc Space Llama vận hành độc lập, không cần phụ thuộc vào hạ tầng mặt đất càng có ý nghĩa chiến lược.

📌 Space Llama – AI tạo sinh nguồn mở đầu tiên trên ISS, kết hợp Meta, Booz Allen, Nvidia, HPE, giúp phi hành gia chủ động nghiên cứu, sửa chữa, giảm chi phí, tăng hiệu quả, mở ra kỷ nguyên AI tại biên không gian và truyền cảm hứng cho ứng dụng AI nguồn mở trong doanh nghiệp nhỏ.

https://www.cnbc.com/2025/04/25/ai-space-meta-llama-iss-booz-allen.html

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2025-04-24 07:18:56

ByteDance phát hành UI-TARS-1.5 – AI đa phương tiện nguồn mở vượt mặt OpenAI Operator và Claude 3.7

ByteDance vừa công bố UI-TARS-1.5, bản cập nhật của framework agent đa phương tiện tập trung vào tương tác giao diện người dùng (GUI) và môi trường game.
Mô hình này là AI tạo sinh tích hợp thị giác và ngôn ngữ, có khả năng nhận diện nội dung màn hình và thực hiện các thao tác điều khiển giống người thật như di chuột, gõ phím.
UI-TARS-1.5 được huấn luyện end-to-end, không cần gọi hàm hay bổ sung công cụ ngoài, giúp mô hình tương tác trực tiếp với GUI như người dùng thực sự.
Cải tiến chính gồm: mã hóa đồng thời hình ảnh màn hình và hướng dẫn văn bản, cơ chế “nghĩ rồi hành động” tách biệt lập kế hoạch và thực thi, không gian hành động thống nhất cho desktop, mobile, game, và tự học qua dữ liệu truy vết (replay trace) thay vì dựa vào dữ liệu mẫu thủ công.
Trên benchmark OSWorld (100 bước), UI-TARS-1.5 đạt tỉ lệ thành công 42,5%, vượt OpenAI Operator (36,4%) và Claude 3.7 (28%).
Ở Windows Agent Arena (50 bước), mô hình đạt 42,1%, cao hơn nhiều so với baseline trước đó (29,8%).
Android World: UI-TARS-1.5 đạt 64,2%, cho thấy khả năng tổng quát hóa lên hệ điều hành di động.
ScreenSpot-V2: đạt chính xác 94,2% khi xác định vị trí thành phần GUI, vượt Operator (87,9%) và Claude 3.7 (87,6%).
ScreenSpotPro (benchmark phức tạp hơn): đạt 61,6%, cao hơn Operator (23,4%) và Claude 3.7 (27,7%).
Trong 14 mini-game Poki, UI-TARS-1.5 hoàn thành nhiệm vụ 100%, chứng tỏ khả năng tổng quát hóa và thích ứng với nhiều cơ chế game khác nhau.
Trên Minecraft (MineRL), mô hình đạt 42% thành công nhiệm vụ khai khoáng và 31% nhiệm vụ tiêu diệt mob khi sử dụng module “nghĩ rồi hành động”.
UI-TARS-1.5 phát hành nguồn mở theo giấy phép Apache 2.0, có sẵn trên GitHub, Hugging Face, cùng công cụ desktop hỗ trợ điều khiển tự nhiên bằng ngôn ngữ.
Dự án cung cấp tài liệu chi tiết, dữ liệu truy vết và bộ công cụ đánh giá để hỗ trợ cộng đồng nghiên cứu và phát triển.

📌 UI-TARS-1.5 của ByteDance là AI tạo sinh đa phương tiện nguồn mở, vượt trội về tự động hóa GUI và game với tỉ lệ thành công 42,5% (OSWorld), 64,2% (Android), 100% (Poki Games), vượt xa OpenAI Operator và Claude 3.7. Mô hình tích hợp thị giác-ngôn ngữ, tự học qua replay trace, mở ra tiềm năng lớn cho tự động hóa tương tác phần mềm.

https://www.marktechpost.com/2025/04/21/bytedance-releases-ui-tars-1-5-an-open-source-multimodal-ai-agent-built-upon-a-powerful-vision-language-model/

Không có file đính kèm.

Nguồn tham khảo

254

AI ảnh-video-music-âm thanh AI minh bạch AI mở-nguồn mở 2025-04-23 05:54:47

AI video nguồn mở của startup Trung Quốc kiểm duyệt gắt hình ảnh chính trị nhạy cảm

Sand AI, startup AI Trung Quốc, vừa ra mắt mô hình tạo sinh video Magi-1 với giấy phép nguồn mở, được nhiều tên tuổi lớn như Kai-Fu Lee đánh giá cao.
Magi-1 sử dụng cơ chế dự đoán chuỗi khung hình "autoregressive", có khả năng tạo video chất lượng cao, kiểm soát tốt, mô phỏng vật lý chuẩn xác hơn các đối thủ nguồn mở hiện tại.
Mô hình có kích thước khổng lồ 24 tỉ tham số, yêu cầu 4-8 GPU Nvidia H100 để vận hành, khiến phần lớn người dùng phải sử dụng trực tiếp nền tảng của Sand AI thay vì tự chạy.
Hệ thống yêu cầu tải lên 1 hình ảnh làm "prompt" để khởi tạo video, nhưng TechCrunch phát hiện nhiều hình ảnh bị chặn hoàn toàn như: hình của Tập Cận Bình, quảng trường Thiên An Môn, hình Tank Man, cờ Đài Loan, biểu tượng ủng hộ Hồng Kông.
Việc chặn được thực hiện trực tiếp tại cấp độ hình ảnh; đổi tên tệp không giúp vượt qua bộ lọc.
Khi phát hiện hình ảnh bị cấm, nền tảng trả về thông báo lỗi ngay lập tức.
Không chỉ Sand AI, Hailuo AI của MiniMax tại Thượng Hải cũng chặn hình ảnh Tập Cận Bình, nhưng có phần nhẹ tay hơn: cho phép ảnh Thiên An Môn.
Trung Quốc quy định chặt chẽ: luật năm 2023 cấm các mô hình AI tạo ra nội dung "gây hại đến sự thống nhất và hòa hợp xã hội", buộc các công ty phải kiểm duyệt đầu vào bằng filter hoặc tinh chỉnh mô hình.
Ngược lại, các mô hình AI Trung Quốc thường kiểm soát nội dung khiêu dâm kém hơn Mỹ: nhiều nền tảng video AI tại đây vẫn cho phép tạo hình ảnh khỏa thân không đồng thuận, theo trang 404.
Sự kiểm duyệt của Sand AI với nội dung chính trị cho thấy các startup AI Trung Quốc sẵn sàng thắt chặt kiểm soát để tuân thủ luật pháp nội địa, trong khi vẫn theo đuổi phát triển AI nguồn mở cạnh tranh toàn cầu.

📌 Sand AI tung Magi-1, mô hình AI tạo sinh video 24 tỉ tham số, được cộng đồng đánh giá cao nhưng kiểm duyệt chặt chẽ hình ảnh liên quan đến Tập Cận Bình, Thiên An Môn, Hồng Kông... nhằm tuân thủ luật thông tin Trung Quốc (ban hành 2023), vượt trội về mức độ kiểm soát so với các đối thủ trong nước.

https://techcrunch.com/2025/04/22/a-chinese-ai-video-startup-appears-to-be-blocking-politically-sensitive-images/

Không có file đính kèm.

Nguồn tham khảo

107

AI mở-nguồn mở AI nhỏ 2025-04-17 00:03:29

Microsoft ra mắt BitNet b1.58 2B4T, mô hình AI nén 1-bit với 2 tỷ tham số, dễ dàng chạy trên CPU phổ thông

Microsoft vừa công bố BitNet b1.58 2B4T, mô hình AI nén 1-bit lớn nhất từng được phát triển với 2 tỷ tham số.
BitNet b1.58 2B4T mã nguồn mở theo giấy phép MIT, cho phép mọi người truy cập và sử dụng miễn phí.
BitNet là AI nén đặc biệt khi trọng số chỉ nhận giá trị -1, 0, 1, giúp giảm mạnh nhu cầu bộ nhớ và tăng tốc độ tính toán.
Mô hình được huấn luyện trên 4 tỷ tokens (tương đương khoảng 33.000.000 cuốn sách), vượt trội về quy mô so với nhiều mô hình hiện nay.
BitNet b1.58 2B4T có thể chạy trên CPU phổ thông như Apple M2, không cần GPU, điều mà hầu hết AI lớn hiện nay không làm được.
Trong kiểm thử, BitNet b1.58 2B4T vượt qua các đối thủ 2 tỷ tham số như Meta Llama 3.2 1B, Google Gemma 3 1B, Alibaba Qwen 2.5 1.5B ở các bài toán GSM8K (toán tiểu học) và PIQA (suy luận vật lý thông thường).
Tốc độ xử lý của BitNet b1.58 2B4T nhanh gấp 2 lần so với các mô hình cùng quy mô, sử dụng ít bộ nhớ hơn đáng kể.
Mô hình cần framework riêng bitnet.cpp của Microsoft để khai thác tối ưu hiệu suất, hiện chỉ hỗ trợ một số CPU nhất định.
BitNet b1.58 2B4T chưa hỗ trợ GPU, trong khi GPU vẫn là nền tảng chính của hạ tầng AI hiện tại.
Dù còn hạn chế về khả năng tương thích, BitNet mở ra triển vọng lớn cho AI chạy trên thiết bị tài nguyên thấp, phục vụ nhiều ứng dụng mới.

📌 Microsoft ra mắt BitNet b1.58 2B4T với 2 tỷ tham số, chạy nhanh gấp đôi các mô hình AI cùng loại trên CPU phổ thông, vượt qua các đối thủ lớn ở nhiều bài kiểm tra, mã nguồn mở, nhưng hiện chỉ hỗ trợ một số CPU, chưa tương thích GPU – hứa hẹn thay đổi cuộc chơi AI tiết kiệm tài nguyên.

https://techcrunch.com/2025/04/16/microsoft-researchers-say-theyve-developed-a-hyper-efficient-ai-model-that-can-run-on-cpus/

Không có file đính kèm.

Nguồn tham khảo

103

AI robotics-auto-agents AI mở-nguồn mở 2025-04-15 05:57:47

Hugging Face mua lại startup robot nguồn mở Pollen Robotics, giúp cộng đồng phát triển robot AI với độ minh bạch cao hơn

Hugging Face, công ty chuyên cung cấp các mô hình AI nguồn mở, đã thông báo mua lại Pollen Robotics - startup Pháp đứng sau robot nhân hình Reachy 2 với hai cánh tay và đôi mắt đặc trưng.
Theo kế hoạch, Hugging Face sẽ bán robot này đồng thời cho phép các nhà phát triển tải xuống, chỉnh sửa và đề xuất cải tiến cho mã nguồn của nó.
Clément Delangue, CEO của Hugging Face, nhấn mạnh tầm quan trọng của nguồn mở trong lĩnh vực robotics: "Khi nghĩ về các vật thể vật lý làm việc tại nơi làm việc và ở nhà, mức độ tin cậy và minh bạch cần thiết cao hơn nhiều so với việc trò chuyện trên laptop."
Reachy 2 đã được thể hiện trong các video thực hiện các thao tác như dọn dẹp cốc cà phê và nhặt trái cây, và đang được nhiều công ty AI hàng đầu sử dụng để nghiên cứu về thao tác robot.
Matthieu Lapeyre, đồng sáng lập kiêm CEO của Pollen Robotics, cho biết mục tiêu cuối cùng là đưa những phiên bản kế thừa của Reachy 2 vào sử dụng trong gia đình, mặc dù việc bán robot nhân hình vẫn còn nhiều thách thức.
Hiện nay, công nghệ robot nhân hình chủ yếu được phát triển bởi một số công ty có tài chính mạnh như Tesla, Figure và Agility Robotics. Lapeyre hy vọng với Hugging Face, họ có thể "dân chủ hóa" lĩnh vực này.
Nhiều mô hình AI, framework phần mềm và công cụ mà các nhà nghiên cứu và kỹ sư dùng để xây dựng mô hình và ứng dụng AI đã là nguồn mở, cho phép truy cập miễn phí và sửa đổi mã nguồn.
Phần cứng nguồn mở thường bao gồm việc phát hành thiết kế, chi tiết linh kiện và mô hình 3D, giúp dễ dàng sản xuất các bộ phận hơn. Nhà phát triển robot "có thể in 3D một bộ phận nếu có gì đó bị hỏng", Lapeyre nói.
Sergey Levine, giáo sư tại UC Berkeley và đồng sáng lập Physical Intelligence, ủng hộ cách tiếp cận nguồn mở: "Làm cho robotics dễ tiếp cận hơn sẽ tăng tốc độ phát triển công nghệ."
Xu hướng nguồn mở dường như đang ngày càng phát triển trong ngành công nghiệp AI, với Meta là công ty AI lớn đầu tiên cung cấp mô hình mở khi phát hành Llama vào năm 2023, và thậm chí OpenAI cũng thông báo sẽ phát hành một mô hình mở miễn phí vào mùa hè này.

📌 Việc Hugging Face mua lại Pollen Robotics đánh dấu bước ngoặt trong lĩnh vực robot AI nguồn mở, hứa hẹn dân chủ hóa công nghệ robot nhân hình. Cách tiếp cận này không chỉ tăng cường tính minh bạch mà còn thúc đẩy sự đổi mới nhanh chóng, tương tự như cách các mô hình AI nguồn mở đã thay đổi ngành công nghiệp AI.

https://www.wired.com/story/hugging-face-acquires-open-source-robot-startup/

Một nhà tiên phong mã nguồn mở muốn giải phóng robot AI mã nguồn mở

Hugging Face đã mua lại startup robot mã nguồn mở Pollen Robotics để giúp "dân chủ hóa" ngành robot.

Hugging Face đang giúp dẫn đầu phong trào AI mã nguồn mở.

Hugging Face, một công ty lưu trữ các mô hình trí tuệ nhân tạo và phần mềm mã nguồn mở, hôm nay đã thông báo về việc mua lại Pollen Robotics, startup Pháp đứng sau robot hình người hai tay với đôi mắt to tên Reachy 2. Hugging Face có kế hoạch bán robot này và cũng sẽ cho phép các nhà phát triển tải xuống, sửa đổi và đề xuất cải tiến cho mã nguồn của nó.

"Thật sự quan trọng để ngành robot trở thành mã nguồn mở càng nhiều càng tốt," Clément Delangue, giám đốc điều hành của Hugging Face nói. "Khi bạn nghĩ về các vật thể có hình dạng thực hiện các công việc thực tế tại nơi làm việc và tại nhà, mức độ tin cậy và minh bạch mà tôi cần cao hơn nhiều so với việc tôi trò chuyện với thứ gì đó trên máy tính xách tay của mình."

Trong các video được Pollen Robotics chia sẻ, Reachy 2 có thể thực hiện các thao tác như dọn dẹp cốc cà phê và nhặt trái cây. Matthieu Lapeyre, đồng sáng lập và CEO của Pollen Robotics, cho biết một số công ty AI hàng đầu đang sử dụng Reachy 2 để nghiên cứu thao tác robot, mặc dù ông nói ông không thể nêu tên họ do các thỏa thuận bảo mật. Mục tiêu cuối cùng là để mọi người sử dụng các thế hệ sau của Reachy 2 trong nhà của họ.

Lapeyre nói rằng việc bán robot hình người vẫn còn khó khăn, vì các trường hợp sử dụng chưa rõ ràng và hệ thống vẫn chưa đáng tin cậy - mặc dù một số công ty bắt đầu thành công. Hiện nay, công nghệ này chủ yếu được phát triển bởi một vài công ty được tài trợ tốt, bao gồm Tesla, Figure và Agility Robotics. "Với Hugging Face, chúng tôi hy vọng sẽ dân chủ hóa điều đó," ông nói.

Nhiều mô hình AI, framework phần mềm và công cụ mà các nhà nghiên cứu và kỹ sư dựa vào để xây dựng mô hình và ứng dụng AI đã là mã nguồn mở. Điều này có nghĩa là các mô hình được chia sẻ miễn phí, với giấy phép cho phép sửa đổi và tái sử dụng mã. Việc phần cứng mã nguồn mở thường có nghĩa là phát hành thiết kế, chi tiết thành phần và mô hình 3D cho phép các chi tiết được sản xuất dễ dàng hơn.

Sự sẵn có của các mô hình AI mạnh mẽ có trọng số mở (nghĩa là có thể tải xuống nhưng không nhất thiết phải hoàn toàn mã nguồn mở) đã giúp các nhà nghiên cứu và startup dễ dàng thử nghiệm với AI tiên tiến, vì họ có thể thấy cách mô hình hoạt động và sửa đổi mã. Delangue nói rằng Hugging Face tin rằng điều tương tự cũng cần thiết trong ngành robot. "Hy vọng mã nguồn mở có thể giải phóng một loạt khả năng [robot mới] đa dạng," ông nói.

Lapeyre bổ sung rằng việc mở nguồn phần cứng có hiệu quả tương tự. Các nhà phát triển robot "có thể in (3D) một bộ phận nếu có gì đó bị hỏng," ông nói, thêm vào đó, "nếu có gì đó không hoàn hảo, họ có thể làm cho nó tốt hơn một chút bằng cách thêm một bộ phận mới."

Sự bùng nổ AI hiện tại đã trùng hợp với sự quan tâm mới đối với ngành robot, khi các mô hình mới nhất giúp khả năng của hệ thống phần cứng tiến bộ. Một số nhà nghiên cứu nổi tiếng lập luận rằng AI sẽ cần có sự hiện diện vật lý để phù hợp hoặc vượt qua trí thông minh của con người, bởi vì sự tiến bộ đó có thể đòi hỏi sự hiểu biết trực tiếp về thế giới vật lý.

Sự phấn khích xung quanh robot hình người đã dẫn đến một số tuyên bố đáng ngờ. Một số công ty đang chạy đua để xây dựng robot hình người đã đăng video demo trên mạng xã hội có vẻ hứa hẹn những khả năng đáng kinh ngạc. Nhưng các chuyên gia cảnh báo rằng những video như vậy có thể gây hiểu lầm. Một hệ thống có vẻ phi thường trên mạng thực tế có thể được điều khiển từ xa bởi một người ở ngoài camera. Nó cũng có thể thất bại nếu điều kiện thay đổi dù chỉ một chút hoặc không thể hoàn thành một nhiệm vụ một cách đáng tin cậy.

Delangue nói rằng cách tiếp cận mã nguồn mở sẽ làm cho tiến trình minh bạch hơn. "Bạn không thể gian lận; bạn không thể giấu diếm với mã nguồn mở," ông nói.

Hugging Face đã lưu trữ một số mã robot mã nguồn mở. Delangue nói rằng việc sử dụng mã này đã tăng vọt trong năm qua, phản ánh sự quan tâm ngày càng tăng đối với ngành robot nói chung.

Một số nhà nghiên cứu robot, đặc biệt là những người trong học thuật, ưa thích cách tiếp cận mở. "Làm cho ngành robot dễ tiếp cận hơn sẽ tăng tốc độ phát triển công nghệ," Sergey Levine, giáo sư trợ lý tại UC Berkeley và đồng sáng lập của Physical Intelligence, một startup đang làm việc để phát triển các mô hình robot có mục đích chung và khả năng cao hơn, nói.

Physical Intelligence đã cung cấp mô hình foundation đầu tiên của mình, Pi0, trên Hugging Face vào tháng 2. Mô hình này cho phép nhiều loại robot khác nhau học cách thực hiện nhiều nhiệm vụ vật lý.

Levine nói rằng các nhà nghiên cứu trong học thuật và công nghiệp đã đóng góp những ý tưởng và điều chỉnh có giá trị cho sản phẩm của ông. Ông bổ sung rằng có tiềm năng cho người ngoài đóng góp vào việc phát triển phần cứng mới.

"Mọi người có thể áp dụng nhiều sáng tạo hơn vào cách họ xây dựng phần cứng vật lý thực tế," ông nói.

Cách tiếp cận mở dường như đang có đà phát triển trong toàn ngành AI. Meta là công ty AI lớn đầu tiên cung cấp mô hình trọng số mở tiên tiến khi phát hành Llama vào năm 2023. Một số mô hình trọng số mở tiên tiến khác đã theo sau. Vào tháng 1, một startup Trung Quốc tương đối không nổi tiếng tên DeepSeek đã gây sốc cho ngành công nghệ và thị trường chứng khoán bằng cách phát hành một mô hình AI mạnh mẽ được báo cáo là phát triển với chi phí thấp hơn so với các mô hình do các công ty Mỹ tạo ra.

Thậm chí OpenAI, công ty ở trung tâm của làn sóng hiện tại, đã giữ các mô hình mạnh nhất của mình như một bí mật được bảo vệ nghiêm ngặt, đã nói vào tháng 3 rằng họ sẽ thay đổi cách tiếp cận và phát hành một mô hình trọng số mở, miễn phí vào mùa hè này.

An Open Source Pioneer Wants to Unleash Open Source AI Robots

Hugging Face has acquired the open source robot startup Pollen Robotics to help “democratize” robotics.

Hugging Face, a company that hosts open source artificial intelligence models and software, announced today that it has acquired Pollen Robotics, the French startup behind the bug-eyed, two-armed, humanoid robot called Reachy 2. Hugging Face plans to sell the robot and will also allow developers to download, modify, and suggest improvements to its code.

“It’s really important for robotics to be as open source as possible,” says Clément Delangue, chief executive of Hugging Face. “When you think about physical objects doing physical things at work and at home, the level of trust and transparency I need is much higher than for something I chat with on my laptop.”

In videos shared by Pollen Robotics, Reachy 2 can be seen performing tricks like tidying coffee mugs and picking up fruit. Matthieu Lapeyre, cofounder and CEO of Pollen Robotics, says several leading AI companies are using Reachy 2 to research robotic manipulation, although he says he can’t name them due to confidentiality agreements. The ultimate goal is for people to use descendants of Reachy 2 in their homes.

Lapeyre says selling humanoid robots remains challenging, because the use cases are unclear and the systems are still unreliable—though some companies are starting to find success. Today, the technology is mostly developed by a few well-financed companies, including Tesla, Figure, and Agility Robotics. “With Hugging Face, we hope to democratize that,” he says.

Many AI models, software frameworks, and tools that researchers and engineers rely on to build AI models and applications are already open source. This means the models are shared free of charge, with licenses that allow the code to be modified and reused. Making hardware open source typically means releasing designs, component details, and 3D models that allow pieces to be manufactured more easily.

The availability of powerful open-weight AI models (meaning downloadable but not necessarily fully open source) has made it easier for researchers and startups to experiment with cutting-edge AI, as they can see how models work and modify the code. Delangue says that Hugging Face believes something similar is needed in robotics. “Hopefully open source can unleash a wide and diverse range of [new robot] capabilities,” he says.

Lapeyre adds that open-sourcing hardware has a similar effect. Robot developers “can [3D] print a part if something is broken,” he says, adding, “if something is not perfect, they can make it a bit better by adding a new part.”

The current AI boom has coincided with renewed interest in robotics, as the latest models help enable new advances in the capabilities of hardware systems. Some prominent researchers argue that AI will need a physical presence in order to match or surpass human intelligence, because that advancement may require a direct understanding of the physical world.

The hype surrounding humanoid robots has led to some dubious claims. Some of the companies racing to build humanoid robots have posted demo videos on social media that seem to promise incredible abilities. But experts warn that such videos could be misleading. A system that seems extraordinary online could in fact be tele-operated by a person off camera. It could also fail if conditions change even slightly or be unable to complete a task reliably.

Delangue says the open source approach should make progress more transparent. “You can’t cheat; you can’t hide with open source,” he says.

Hugging Face already hosts some open source robotics code. Delangue says that use of this code has spiked over the past year, reflecting growing interest in robotics generally.

Some robotics researchers, especially those in academia, favor the open approach. “Making robotics more accessible increases the velocity with which technology advances,” says Sergey Levine, an assistant professor at UC Berkeley and cofounder of Physical Intelligence, a startup working to develop vastly more capable and general purpose robotic models.

Physical Intelligence made the first of its robot foundation models, Pi0, available on Hugging Face in February. The model allows a range of different robots to learn to do a variety of physical tasks.

Levine says that researchers in academia and industry have already contributed valuable ideas and tweaks to his product. He adds there is potential for outsiders to contribute to the development of new hardware as well.

“There's a lot more creativity people can apply to how they build the actual physical hardware,” he says.

The open approach appears to be gaining momentum across the AI industry. Meta was the first major AI company to offer a cutting edge open weight model when it released Llama in 2023. Several other cutting edge open-weight models have followed. In January, a relatively unknown Chinese startup called DeepSeek shocked the tech industry and the stock market by releasing a powerful AI model that was reportedly developed at less cost than those made by US firms.

Even OpenAI, the company at the center of the current boom, which has kept its most powerful models a closely guarded secret, said in March that it would change its approach and release a free, open-weight model this summer.

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-04-09 07:01:44

Deep Cogito ra mắt mô hình AI lai suy luận Cogito 1 nguồn mở, , tuyên bố vượt trội Meta và DeepSeek

* Công ty Deep Cogito vừa ra mắt công khai sau thời gian hoạt động kín đáo, giới thiệu một họ mô hình AI nguồn mở có tên Cogito 1.
* Điểm đặc biệt của Cogito 1 là kiến trúc lai, cho phép chuyển đổi giữa chế độ "suy luận" (tự kiểm tra, xử lý từng bước các vấn đề phức tạp) và chế độ không suy luận (trả lời nhanh các câu hỏi đơn giản).
* Deep Cogito tuyên bố các mô hình Cogito 1 vượt trội hơn những mô hình nguồn mở tốt nhất cùng kích thước, bao gồm cả mô hình từ Meta và DeepSeek.
* Các mô hình này được phát triển bởi một đội ngũ nhỏ trong khoảng 75 ngày, dựa trên nền tảng các mô hình Llama của Meta và Qwen của Alibaba, áp dụng các phương pháp huấn luyện mới.
* Dải mô hình Cogito 1 hiện có từ 3 tỷ đến 70 tỷ tham số, và công ty cho biết các mô hình lên tới 671 tỷ tham số sẽ ra mắt trong những tuần và tháng tới.
* Theo kết quả đánh giá nội bộ, mô hình lớn nhất Cogito 70B với chế độ suy luận bật đã vượt qua mô hình R1 của DeepSeek trên một số bài đánh giá toán học và ngôn ngữ. Khi tắt suy luận, Cogito 70B cũng vượt trội hơn mô hình Llama 4 Scout mới ra mắt của Meta trên bài kiểm tra AI tổng quát LiveBench.
* Tất cả các mô hình Cogito 1 đều có sẵn để tải về hoặc sử dụng qua API trên các nhà cung cấp đám mây Fireworks AI và Together AI.
* Deep Cogito được thành lập vào tháng 6 năm 2024 tại San Francisco bởi Drishan Arora (cựu kỹ sư phần mềm Google) và Dhruv Malhotra (cựu quản lý sản phẩm tại Google DeepMind).
* Công ty, được hỗ trợ bởi South Park Commons, có mục tiêu tham vọng là xây dựng "siêu trí tuệ tổng quát", nghĩa là AI có thể thực hiện nhiệm vụ tốt hơn hầu hết con người.

📌 Deep Cogito ra mắt các mô hình AI lai Cogito 1 (3 tỷ-70 tỷ tham số), nguồn mở, có thể bật/tắt chế độ suy luận. Được xây dựng dựa trên Llama/Qwen trong 75 ngày, các mô hình này tuyên bố hiệu suất vượt trội DeepSeek R1 và Llama 4 Scout, hướng tới mục tiêu siêu trí tuệ tổng quát.

https://techcrunch.com/2025/04/08/deep-cogito-emerges-from-stealth-with-hybrid-ai-reasoning-models/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI benchmark 2025-04-09 06:42:42

Framework nguồn mở Open RAG Eval ra mắt giúp "bắt bệnh" hệ thống RAG của doanh nghiệp

* Doanh nghiệp đang đầu tư vào việc xây dựng hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) nhưng thiếu khả năng đo lường khách quan hiệu quả của chúng, đây là một điểm mù quan trọng.
* Framework nguồn mở Open RAG Eval vừa ra mắt, được phát triển bởi nhà cung cấp nền tảng RAG doanh nghiệp Vectara phối hợp với giáo sư Jimmy Lin và nhóm nghiên cứu của ông tại đại học Waterloo, nhằm giải quyết thách thức này.
* Framework này biến đổi phương pháp so sánh chủ quan thành một phương pháp đánh giá nghiêm ngặt, có thể tái tạo, đo lường độ chính xác truy xuất, chất lượng tạo sinh và tỷ lệ ảo giác trong các triển khai RAG của doanh nghiệp.
* Open RAG Eval đánh giá chất lượng phản hồi thông qua 2 loại chỉ số chính: chỉ số truy xuất và chỉ số tạo sinh, cho phép tổ chức áp dụng đánh giá này cho bất kỳ quy trình RAG nào.
* Phương pháp đánh giá dựa trên "nugget", chia nhỏ các phản hồi thành những thông tin thực tế thiết yếu (nugget), sau đó đo lường mức độ hiệu quả mà hệ thống nắm bắt được các nugget này.
* Framework đánh giá hệ thống RAG qua 4 chỉ số cụ thể: phát hiện ảo giác (đo mức độ nội dung chứa thông tin bịa đặt không được nguồn hỗ trợ), đánh giá trích dẫn, auto nugget (đánh giá sự hiện diện của các nugget thông tin thiết yếu từ nguồn trong phản hồi), và UMBRELA (phương pháp toàn diện để đánh giá hiệu suất retriever).
* Sự đổi mới kỹ thuật của Open RAG Eval nằm ở việc sử dụng các mô hình ngôn ngữ lớn (LLM) và Python với kỹ thuật prompt phức tạp để tự động hóa quy trình đánh giá vốn đòi hỏi nhiều công sức thủ công trước đây.
* So với các framework đánh giá khác như Yourbench của Hugging Face hay Agentic Evaluations của Galileo, Open RAG Eval tập trung mạnh vào toàn bộ quy trình RAG, không chỉ là đầu ra của LLM, và có nền tảng học thuật vững chắc.
* Framework này được xây dựng dựa trên đóng góp trước đó của Vectara cho cộng đồng AI nguồn mở, bao gồm Hughes Hallucination Evaluation Model (HHEM), đã được tải xuống hơn 3.5 triệu lần.
* Jeff Hummel, phó chủ tịch cấp cao về sản phẩm và công nghệ tại công ty bất động sản Anywhere.re, kỳ vọng việc hợp tác với Vectara sẽ giúp công ty ông tinh giản quy trình đánh giá RAG và đưa ra các tính toán mở rộng quy mô có tính dự đoán cao hơn.
* Open RAG Eval giúp các nhà ra quyết định kỹ thuật trả lời các câu hỏi quan trọng về cấu hình RAG, như lựa chọn phương pháp chunking, loại tìm kiếm, LLM sử dụng, tối ưu hóa prompt và đặt ngưỡng phát hiện ảo giác.

📌 Framework nguồn mở Open RAG Eval do Vectara và đại học Waterloo phát triển, giúp đo lường khoa học hiệu suất RAG qua các chỉ số như phát hiện ảo giác và chất lượng trích dẫn, thay thế đánh giá chủ quan. Sử dụng LLM để tự động hóa, framework này hỗ trợ doanh nghiệp tối ưu hóa hệ thống AI bằng dữ liệu.

https://venturebeat.com/ai/the-rag-reality-check-new-open-source-framework-lets-enterprises-scientifically-measure-ai-performance/

Không có file đính kèm.

Nguồn tham khảo

105

AI market AI mở-nguồn mở 2025-04-09 06:27:58

Nvidia ra mắt Llama-3.1 Nemotron Ultra 253 tỷ tham số, nguồn mở, vượt trội DeepSeek R1

* Nvidia đã phát hành mô hình ngôn ngữ lớn (LLM) Llama-3.1-Nemotron-Ultra-253B-v1, một mô hình dày đặc (dense model) với 253 tỷ tham số, dựa trên mô hình Llama-3.1-405B-Instruct của Meta.
* Mô hình này được công bố vào ngày 7 tháng 4 năm 2025, mã nguồn mở hoàn toàn, bao gồm trọng số mở và dữ liệu sau huấn luyện, có sẵn trên Hugging Face.
* Llama-3.1 Nemotron Ultra được thiết kế để hỗ trợ suy luận nâng cao, tuân theo chỉ dẫn và các quy trình trợ lý AI, với khả năng chuyển đổi giữa chế độ "bật suy luận" và "tắt suy luận".
* Kiến trúc mô hình được tối ưu hóa thông qua quy trình Tìm kiếm Kiến trúc Nơ-ron (NAS), giảm bộ nhớ và yêu cầu tính toán, cho phép triển khai trên một node GPU 8x H100 duy nhất.
* Mô hình tương thích với vi kiến trúc B100 và Hopper của Nvidia, hỗ trợ độ chính xác BF16 và FP8.
* Quá trình hậu huấn luyện bao gồm tinh chỉnh có giám sát (supervised fine-tuning) trên các lĩnh vực toán học, tạo mã, trò chuyện, sử dụng công cụ và học tăng cường với Tối ưu hóa Chính sách Tương đối Nhóm (GRPO).
* Mô hình trải qua chưng cất kiến thức trên 65 tỷ token và tiếp tục tiền huấn luyện trên 88 tỷ token khác, sử dụng các bộ dữ liệu như FineWeb, Buzz-V1.2 và Dolma.
* Trong chế độ bật suy luận, hiệu năng tăng đáng kể trên các benchmark: MATH500 từ 80.40% lên 97.00%, AIME25 từ 16.67% lên 72.50%, LiveCodeBench từ 29.03% lên 66.31%, và GPQA từ 56.60% lên 76.01%.
* So với DeepSeek R1 (mô hình MoE 671 tỷ tham số), Llama-3.1 Nemotron Ultra cạnh tranh tốt dù có ít hơn một nửa số tham số, vượt trội ở GPQA (76.01 so với 71.5), IFEval (89.45 so với 83.3) và LiveCodeBench (66.31 so với 65.9).
* DeepSeek R1 vẫn dẫn đầu ở một số đánh giá toán học như AIME25 (79.8 so với 72.50) và nhỉnh hơn một chút ở MATH500 (97.3 so với 97.00).
* Mô hình hỗ trợ độ dài chuỗi đầu vào và đầu ra lên đến 128.000 token, tương thích với thư viện Hugging Face Transformers (phiên bản 4.48.3 được khuyến nghị).
* Hỗ trợ nhiều ngôn ngữ bao gồm tiếng Anh, Đức, Pháp, Ý, Bồ Đào Nha, Hindi, Tây Ban Nha và Thái Lan, phù hợp cho chatbot, agent AI, tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG), và tạo mã.
* Mô hình được cấp phép theo Giấy phép Mô hình Mở Nvidia và Thỏa thuận Giấy phép Cộng đồng Llama 3.1, cho phép sử dụng thương mại.

📌 Nvidia ra mắt Llama-3.1 Nemotron Ultra 253 tỷ tham số, nguồn mở, vượt trội DeepSeek R1 (671 tỷ tham số) về suy luận và tuân thủ chỉ dẫn dù nhỏ hơn. Mô hình tối ưu cho GPU Nvidia, hỗ trợ 128.000 token, đa ngôn ngữ và được cấp phép thương mại.

https://venturebeat.com/ai/nvidias-new-llama-3-1-nemotron-ultra-outperforms-deepseek-r1-at-half-the-size/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-04-08 01:30:32

Llama 4 với cửa sổ ngữ cảnh khổng lồ 10 triệu token: Liệu có thực sự "giết chết" RAG?

- Khi Meta công bố Llama 4, mô hình nguồn mở thế hệ tiếp theo, nhiều cuộc tranh luận đã nổ ra trên mạng xã hội về việc liệu đây có phải là dấu chấm hết cho tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) do mô hình có cửa sổ ngữ cảnh lên tới 10 triệu token.

- Cửa sổ ngữ cảnh khổng lồ cho phép Llama 4 xử lý lượng thông tin lớn trong một lần truy vấn, giảm nhu cầu sử dụng nguồn bên ngoài khi xử lý dữ liệu tĩnh, nhưng nhiều chuyên gia khẳng định điều này không đồng nghĩa với việc RAG sẽ biến mất.

- Marco D'Alia, kiến trúc sư phần mềm, chỉ ra rằng việc đưa 10 triệu token vào cửa sổ ngữ cảnh sẽ tốn kém, vượt quá 1 đô la mỗi truy vấn và mất "hàng chục giây" để tạo phản hồi.

- Jamie Voynow, kỹ sư học máy, nhấn mạnh: "RAG không phải để giải quyết vấn đề cửa sổ ngữ cảnh hữu hạn, mà để lọc tín hiệu từ tập dữ liệu nhiễu. Dù cửa sổ ngữ cảnh lớn và mạnh đến đâu, việc loại bỏ dữ liệu rác khỏi đầu vào sẽ luôn cải thiện hiệu suất."

- Gokul JS, kỹ sư sáng lập của Aerotime, đưa ra phép so sánh đơn giản: "Hãy tưởng tượng đưa cho ai đó một trang văn bản dày đặc, lấy lại, rồi đặt câu hỏi. Họ sẽ chỉ nhớ được một phần, không phải tất cả."

- Skylar Payne, cựu kỹ sư hệ thống ML tại Google và LinkedIn, chỉ ra rằng hầu hết doanh nghiệp có hàng terabyte tài liệu và "không cửa sổ ngữ cảnh nào có thể chứa 50.000+ bài nghiên cứu và hàng thập kỷ hồ sơ quy định của một công ty dược phẩm."

- Các mô hình AI có giới hạn kiến thức, không thể trả lời các truy vấn phụ thuộc vào thông tin thời gian thực mới nhất trừ khi được truy xuất động, điều này đòi hỏi sử dụng RAG.

- Các nhà cung cấp suy luận như Groq hoặc Together AI cung cấp giới hạn ngữ cảnh thấp hơn nhiều so với 10 triệu. Groq cung cấp khoảng 130.000 token cho cả Llama 4 Scout và Maverick, trong khi Together AI cung cấp khoảng 300.000 token cho Llama 4 Scout và 520.000 token cho Llama 4 Maverick.

- Một nghiên cứu cho thấy sau 30.000 token trong ngữ cảnh, hiệu suất của các mô hình LLM suy giảm. Tại mức 32.000 token, 10/12 mô hình AI được kiểm tra có hiệu suất dưới một nửa so với cơ sở ngữ cảnh ngắn của chúng.

- Trên tiêu chuẩn MMLU-Pro, Llama 4 Maverick đạt 80%, ngang bằng với Claude 3.7 Sonnet (80%) và OpenAI's o3-mini (79%). Trên tiêu chuẩn GPQA Diamond, Llama 4 Maverick đạt 60%, thấp hơn Gemini 2.0 Flash (60%) và DeepSeek V3 (66%).

📌 Mặc dù Llama 4 với cửa sổ ngữ cảnh 10 triệu token là bước tiến lớn trong AI nguồn mở, RAG vẫn cần thiết cho việc lọc dữ liệu nhiễu, xử lý thông tin thời gian thực và quản lý khối lượng dữ liệu doanh nghiệp lớn vượt quá khả năng của bất kỳ cửa sổ ngữ cảnh nào.

https://analyticsindiamag.com/global-tech/llama-4-sparks-rag-is-dead-debate-yet-again/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-04-08 00:42:55

Llama 4 mới nhất, có khả năng trả lời nhiều câu hỏi "gây tranh cãi" hơn phiên bản trước

- Meta vừa ra mắt dòng mô hình AI Llama 4 mới nhất, được thiết kế để trả lời nhiều chủ đề "gây tranh cãi" như chính trị hơn so với phiên bản tiền nhiệm.

- Llama 4 giảm đáng kể tỷ lệ từ chối trả lời các câu hỏi nhạy cảm, từ 7% (ở phiên bản Llama 3.3) xuống dưới 2% theo kết quả kiểm tra của Meta.

- Dòng sản phẩm Llama 4 bao gồm 3 mô hình: Llama 4 Scout, Llama 4 Maverick và Llama 4 Behemoth, trong đó hai mô hình đầu tiên đã được phát hành vào ngày 7/4, còn Behemoth vẫn đang trong quá trình huấn luyện.

- Llama 4 Scout và Maverick được chưng cất từ Behemoth, mô hình mà Meta mô tả là "mạnh mẽ nhất và thuộc nhóm LLM thông minh nhất thế giới".

- Khi kiểm tra với bộ câu hỏi có tính tranh luận, Meta phát hiện chỉ có 1% trường hợp mô hình trả lời một bên nhưng từ chối bên còn lại.

- Các mô hình Llama 4 là hệ thống AI đa phương thức (multimodal), có khả năng xử lý và tích hợp nhiều loại dữ liệu khác nhau như văn bản, video, hình ảnh và âm thanh.

- Meta gọi Llama 4 Scout và Maverick là "mô hình tiên tiến nhất" của họ, lưu ý rằng cả hai đều là mô hình AI "open-weight".

- Mô hình open-weight nằm giữa nguồn mở và độc quyền, chia sẻ tham số đã được huấn luyện trước nhưng giữ bí mật các chi tiết phát triển quan trọng.

- Về các chủ đề "gây tranh cãi" về chính trị hoặc xã hội, Llama 4 phản hồi với "thiên hướng chính trị mạnh" ở mức tương đương với Grok, một trong những đối thủ cạnh tranh.

- Mark Zuckerberg đặt mục tiêu biến Llama thành tiêu chuẩn ngành toàn cầu và cho biết chatbot AI của Meta có thể đạt 1 tỷ người dùng trong năm nay, sau khi đã có 600 triệu người dùng hàng tháng tính đến tháng 12/2023.

- CEO Meta đã cam kết đầu tư tới 65 tỷ USD cho các dự án AI trong năm nay.

📌 Meta đang định vị Llama 4 là mô hình AI cân bằng hơn trong việc trả lời các câu hỏi nhạy cảm, giảm tỷ lệ từ chối từ 7% xuống dưới 2%. Với khoản đầu tư 65 tỷ USD cho AI và mục tiêu đạt 1 tỷ người dùng trong năm 2025, Meta đang quyết tâm cạnh tranh với các đối thủ như OpenAI và xAI.

https://www.businessinsider.com/meta-llama-4-ai-model-contentious-questions-woke-2025-4

Meta cho biết các mô hình AI mới nhất trả lời nhiều câu hỏi "gây tranh cãi" hơn phiên bản trước

Tác giả: Lee Chong Ming

Meta gọi Llama 4 Scout và Llama 4 Maverick là "các mô hình tiên tiến nhất của họ cho đến nay", lưu ý rằng cả hai sẽ là các mô hình AI "open-weight". Chris Unger/Zuffa LLC Ngày 7/4/2025, 9:44 AM UTC

Dòng mô hình AI mới nhất của Meta, Llama 4, có thể đi sâu vào nhiều lĩnh vực gây tranh cãi hơn so với người tiền nhiệm của nó.

Llama 4 cũng "cân bằng hơn đáng kể" trong các lời nhắc mà nó từ chối, Meta cho biết.

Các mô hình AI từ lâu đã phải vật lộn với vấn đề thiên kiến, với Musk gọi ChatGPT là "woke" (quá cấp tiến).

Dòng mô hình AI mới nhất của Meta, Llama 4, được thiết kế để trả lời nhiều chủ đề "gây tranh cãi" như chính trị hơn người tiền nhiệm, công ty cho biết vào hôm thứ Bảy.

Các công ty AI thường xây dựng các rào chắn để chatbot, như Meta AI hoặc ChatGPT, không đi sâu vào lãnh thổ quá gây tranh cãi. Đây là một sự cân bằng khó khăn, vì việc né tránh quá nhiều lời nhắc có thể làm phiền người dùng hoặc bỏ sót ngữ cảnh quan trọng.

Meta cho biết Llama 4 ít có khả năng né tránh các câu hỏi nhạy cảm. Trong khi phiên bản trước, Llama 3.3, từ chối trả lời 7% các lời nhắc có tính chính trị hoặc xã hội, Llama 4 từ chối ít hơn 2% thời gian, theo các thử nghiệm của Meta.

Mô hình này cũng "cân bằng hơn đáng kể" trong các lời nhắc mà nó từ chối, Meta cho biết.

Các mô hình Llama 4 bao gồm Llama 4 Scout, Llama 4 Maverick và Llama 4 Behemoth. Llama 4 Scout và Llama 4 Maverick được phát hành vào hôm thứ Bảy, trong khi Llama 4 Behemoth vẫn đang trong quá trình đào tạo, Meta cho biết.

Llama 4 Scout và Llama 4 Maverick được chưng cất từ Llama 4 Behemoth, mà Meta cho biết là "mạnh mẽ nhất của họ cho đến nay và nằm trong số các LLM thông minh nhất thế giới".

Meta đã kiểm tra Llama 4 với một bộ câu hỏi về các chủ đề gây tranh cãi — những câu hỏi mà mọi người thường có ý kiến đối lập. Trong các thử nghiệm này, Meta kiểm tra xem liệu mô hình có trả lời một bên nhưng từ chối bên kia hay không. Điều này chỉ xảy ra trong 1% các câu hỏi kiểm tra, Meta cho biết.

Các mô hình Llama 4 — bao gồm Llama 4 Scout và Llama 4 Maverick được phát hành vào hôm thứ Bảy — là các hệ thống AI đa phương thức, Meta cho biết. Hệ thống đa phương thức có khả năng xử lý và tích hợp nhiều loại dữ liệu khác nhau, bao gồm văn bản, video, hình ảnh và âm thanh.

Meta gọi Llama 4 Scout và Llama 4 Maverick là "các mô hình tiên tiến nhất của họ cho đến nay", lưu ý rằng cả hai đều là các mô hình AI "open-weight".

Các mô hình open-weight nằm giữa mã nguồn mở và độc quyền, chia sẻ các tham số được đào tạo trước nhưng giữ các chi tiết phát triển quan trọng. Điều này cho phép các nhà phát triển tinh chỉnh và triển khai mô hình mà không cần truy cập vào dữ liệu đào tạo hoặc kiến trúc của nó.

Về một tập hợp các chủ đề chính trị hoặc xã hội "gây tranh cãi", Llama 4 phản hồi với "khuynh hướng chính trị mạnh mẽ" ở mức tương đương với Grok, một trong những đối thủ cạnh tranh. Tỷ lệ này bằng một nửa so với Llama 3.3, Meta cho biết.

"Mặc dù chúng tôi đang đạt được tiến bộ, chúng tôi biết rằng chúng tôi còn nhiều việc phải làm và sẽ tiếp tục đưa tỷ lệ này xuống thấp hơn nữa," công ty nói thêm.

Meta không phản hồi yêu cầu bình luận của Business Insider.

Chatbot "woke"

Công ty cho biết vào hôm thứ Bảy rằng tất cả các LLM lớn đều gặp khó khăn với vấn đề thiên kiến và chúng đã có xu hướng nghiêng về phía tả trong các vấn đề gây tranh cãi. "Mục tiêu của chúng tôi là loại bỏ thiên kiến khỏi các mô hình AI của chúng tôi và đảm bảo rằng Llama có thể hiểu và trình bày cả hai mặt của một vấn đề gây tranh cãi," Meta nói thêm.

Elon Musk đã chỉ trích các chatbot như ChatGPT của OpenAI vì quá "woke" và ủng hộ Grok của xAI của ông như một lựa chọn thay thế.

Các phương pháp đào tạo của xAI cho Grok dường như ưu tiên cao cho niềm tin cánh hữu, một số nhân viên nói với Grace Kay của Business Insider vào tháng 2.

Trong khi đó, OpenAI đã cập nhật mô hình của mình vào tháng 2 để đón nhận "tự do tri thức" và phản hồi khách quan với các chủ đề gây tranh cãi.

Llama, mô hình ngôn ngữ lớn mã nguồn mở của Meta cạnh tranh với các mô hình độc quyền từ các công ty khác, đã là một sáng kiến quan trọng cho công ty.

CEO Mark Zuckerberg nhằm mục đích làm cho Llama trở thành tiêu chuẩn ngành trên toàn cầu và cho biết chatbot AI của Meta, có sẵn trên Facebook, Instagram và WhatsApp, có thể đạt một tỷ người dùng trong năm nay. Tính đến tháng 12, 600 triệu người dùng đã truy cập Meta AI mỗi tháng.

Zuckerberg đã cam kết đầu tư tới 65 tỷ đô la cho các dự án AI trong năm nay.

Không có file đính kèm.

Nguồn tham khảo

AI benchmark AI mở-nguồn mở 2025-04-07 08:31:17

Meta bị tố "gian lận" trong cuộc đua AI: Phiên bản Maverick trên LM Arena khác biệt so với bản công khai

- Meta vừa phát hành mô hình AI mới có tên Maverick, xếp hạng thứ hai trên LM Arena - một bài kiểm tra do con người đánh giá và so sánh đầu ra của các mô hình.

- Các nhà nghiên cứu AI phát hiện phiên bản Maverick trên LM Arena khác với phiên bản công khai dành cho nhà phát triển.

- Meta thừa nhận đã sử dụng "phiên bản trò chuyện thử nghiệm" của Maverick trên LM Arena.

- Trang web chính thức của Llama tiết lộ Meta đã sử dụng "Llama 4 Maverick được tối ưu hóa cho khả năng hội thoại" trong quá trình kiểm tra LM Arena.

- LM Arena vốn không phải thước đo đáng tin cậy nhất về hiệu suất của mô hình AI, nhưng các công ty AI thường không tùy chỉnh mô hình để đạt điểm cao hơn trên nền tảng này.

- Việc tối ưu hóa mô hình cho một benchmark cụ thể, giữ kín và sau đó phát hành phiên bản "vanilla" gây khó khăn cho nhà phát triển trong việc dự đoán hiệu suất thực tế của mô hình.

- Các nhà nghiên cứu nhận thấy sự khác biệt rõ rệt giữa phiên bản Maverick có thể tải xuống công khai và phiên bản trên LM Arena.

- Phiên bản LM Arena sử dụng nhiều emoji và đưa ra câu trả lời dài dòng hơn.

- Hành động này của Meta bị coi là gây hiểu lầm, vì các benchmark lẽ ra phải cung cấp bức tranh tổng quan về điểm mạnh và điểm yếu của một mô hình duy nhất trong nhiều tác vụ khác nhau.

📌 Meta gây tranh cãi khi sử dụng phiên bản tối ưu của Maverick trên LM Arena, khác biệt so với bản công khai. Điều này gây khó khăn cho việc đánh giá hiệu suất thực tế của mô hình và làm dấy lên câu hỏi về tính minh bạch trong cuộc đua AI.

https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/

Không có file đính kèm.

Nguồn tham khảo

150

AI robotics-auto-agents AI mở-nguồn mở 2025-04-07 05:51:22

NVIDIA giới thiệu AgentIQ, thư viện nguồn mở giúp kết nối và tối ưu hóa các hệ thống AI agent

- NVIDIA vừa phát hành AgentIQ, một thư viện Python nhẹ và linh hoạt được thiết kế để thống nhất quy trình làm việc giữa các framework, hệ thống bộ nhớ và nguồn dữ liệu khác nhau trong hệ thống AI agent.

- Doanh nghiệp đang phải đối mặt với nhiều thách thức khi xây dựng hệ thống AI agent trên nhiều framework khác nhau: khó khăn về khả năng tương tác, quan sát, đánh giá hiệu suất và đánh giá quy trình làm việc.

- AgentIQ không thay thế các công cụ hiện có mà nâng cao chúng bằng cách xem mỗi agent, công cụ và quy trình như một lời gọi hàm, cho phép nhà phát triển kết hợp các thành phần từ các framework khác nhau với chi phí tối thiểu.

- Thư viện này tích hợp liền mạch với bất kỳ framework agent nào như LangChain, Llama Index, Crew.ai, Microsoft Semantic Kernel và các agent Python tùy chỉnh.

- AgentIQ cung cấp khả năng tái sử dụng và kết hợp các thành phần, phát triển nhanh chóng với các thành phần có sẵn, phát hiện điểm nghẽn thông qua công cụ lập hồ sơ tích hợp.

- Hệ thống hỗ trợ tích hợp với bất kỳ nền tảng quan sát tương thích OpenTelemetry nào, cung cấp cơ chế đánh giá nhất quán và mạnh mẽ để xác thực quy trình tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) và quy trình làm việc từ đầu đến cuối.

- AgentIQ bao gồm giao diện người dùng dựa trên chat để tương tác với agent theo thời gian thực, trực quan hóa đầu ra và gỡ lỗi quy trình làm việc.

- Thư viện này hỗ trợ Model Context Protocol (MCP), giúp dễ dàng kết hợp các công cụ được lưu trữ trên máy chủ MCP vào lời gọi hàm.

- AgentIQ có thể được cài đặt trên Ubuntu và các bản phân phối dựa trên Linux khác, bao gồm WSL, và sử dụng các công cụ quản lý môi trường Python hiện đại.

- Trong tương lai, AgentIQ sẽ tích hợp NeMo Guardrails, tăng tốc agent với Dynamo, và phát triển vòng phản hồi dữ liệu, hứa hẹn trở thành nền tảng cơ bản trong phát triển agent doanh nghiệp.

📌 NVIDIA AgentIQ là thư viện nguồn mở giúp kết nối và tối ưu hóa các hệ thống AI agent từ nhiều framework khác nhau. Thay vì thay thế, AgentIQ nâng cao công cụ hiện có bằng cách xử lý mọi thành phần như lời gọi hàm, mang lại khả năng tương tác, quan sát và tái sử dụng trong thiết kế hệ thống AI.

https://www.marktechpost.com/2025/04/05/nvidia-ai-released-agentiq-an-open-source-library-for-efficiently-connecting-and-optimizing-teams-of-ai-agents/

Không có file đính kèm.

Nguồn tham khảo

107

AI mở-nguồn mở 2025-04-06 16:19:51

Trung Quốc "vũ khí hóa" AI nguồn mở: Cuộc chơi phá vỡ trật tự trị giá 1 nghìn tỷ USD

- Trung Quốc đang định hình lại bối cảnh công nghệ toàn cầu thông qua chiến lược tập trung vào AI nguồn mở, trực tiếp thách thức vị thế thống trị lâu đời của Mỹ trong lĩnh vực này.

- Các công ty AI hàng đầu của Trung Quốc đang phát hành nghiên cứu và mô hình sáng tạo dưới dạng công cụ nguồn mở, giúp các nhà phát triển trên toàn thế giới dễ dàng tiếp cận và sử dụng.

- Mô hình như Deep Seek đã thu hút sự chú ý đáng kể, thách thức các hệ thống độc quyền của phương Tây và tạo áp lực buộc các công ty Mỹ phải thích nghi với cảnh quan cạnh tranh đang thay đổi nhanh chóng.

- Chiến lược này đã gây ra tổn thất vốn hóa thị trường vượt quá 1 nghìn tỷ USD cho Hoa Kỳ, đồng thời làm thay đổi cán cân quyền lực trong thị trường AI toàn cầu.

- Bằng cách tập trung vào việc mở rộng sản xuất phần cứng và giảm sự phụ thuộc vào lợi nhuận phần mềm, Trung Quốc đang lặp lại thành công trong lĩnh vực sản xuất của mình trong lĩnh vực AI.

- Các mô hình AI của Trung Quốc đang phát triển với tốc độ đáng kinh ngạc, một số đạt được các tiêu chuẩn hiệu suất ngang bằng hoặc vượt trội so với các đối thủ phương Tây.

- Đổi mới như mô hình vision-language-action (VLA) và công cụ như Jarvis VAA thể hiện chuyên môn kỹ thuật ngày càng tăng của Trung Quốc trong các ứng dụng AI tiên tiến.

- AI nguồn mở thúc đẩy sự hợp tác toàn cầu, đẩy nhanh đổi mới và thu hút các nhà phát triển trên toàn thế giới, tạo ra một hệ sinh thái AI toàn cầu cạnh tranh và năng động hơn.

- Tiến bộ của Trung Quốc trong AI vượt ra ngoài cạnh tranh kinh tế, gây lo ngại về các ứng dụng quân sự và địa chính trị tiềm năng, bao gồm máy bay không người lái tự động và robot.

- Tiềm năng sử dụng kép của AI nguồn mở làm nổi bật nhu cầu hợp tác toàn cầu để thiết lập các hướng dẫn đạo đức cho việc phát triển và sử dụng AI.

- Hoa Kỳ đang đối mặt với thời điểm quan trọng trong cách tiếp cận phát triển AI, cần cân bằng giữa hợp tác mở và bảo vệ tài sản trí tuệ để duy trì vị thế dẫn đầu.

- Cuộc cạnh tranh giữa các mô hình AI độc quyền và nguồn mở sẽ định hình tương lai của sự phát triển AI toàn cầu, với những tác động sâu rộng đến đổi mới, kinh tế và địa chính trị.

📌 Chiến lược AI nguồn mở của Trung Quốc đã gây thiệt hại hơn 1 nghìn tỷ USD cho Mỹ, thay đổi cục diện công nghệ toàn cầu. Với các mô hình như Deep Seek và Jarvis VAA, Trung Quốc đang thách thức vị thế thống trị của phương Tây, đồng thời gây lo ngại về ứng dụng quân sự tiềm tàng của công nghệ này.

https://www.geeky-gadgets.com/china-open-source-ai-strategy-global-impact/

Không có file đính kèm.

Nguồn tham khảo

135

AI mở-nguồn mở AI market 2025-04-06 06:57:08

DeepSeek giới thiệu phương pháp mới cải thiện khả năng suy luận của mô hình AI

- DeepSeek hợp tác với Đại học Thanh Hoa phát triển kỹ thuật kết hợp mô hình phần thưởng tạo sinh (GRM) và tự điều chỉnh phê bình có nguyên tắc để cải thiện khả năng suy luận của mô hình ngôn ngữ lớn (LLM).
- Phương pháp mới giúp LLM đưa ra kết quả tốt hơn và nhanh hơn cho các truy vấn chung.
- Mô hình DeepSeek-GRM vượt trội so với các phương pháp hiện có, đạt hiệu suất cạnh tranh với các mô hình phần thưởng công khai mạnh mẽ.
- DeepSeek dự định mở nguồn các mô hình GRM nhưng chưa công bố thời gian cụ thể.
- Có tin đồn DeepSeek-R2, phiên bản kế tiếp của R1, có thể ra mắt trong tháng này.
- DeepSeek giữ im lặng về tin đồn ra mắt R2, một tài khoản dịch vụ khách hàng phủ nhận thông tin này trong nhóm chat với khách hàng doanh nghiệp.
- Công ty nâng cấp mô hình V3 (DeepSeek-V3-0324) với khả năng suy luận nâng cao, phát triển web front-end tối ưu và kỹ năng viết tiếng Trung được cải thiện.
- DeepSeek mở nguồn 5 kho mã nguồn vào tháng 2, cho phép các nhà phát triển đóng góp vào quá trình phát triển phần mềm.
- Liang Wenfeng, nhà sáng lập 40 tuổi, công bố nghiên cứu kỹ thuật về "native sparse attention" để cải thiện hiệu quả xử lý dữ liệu lớn của LLM.
- Liang tham gia hội thảo với các doanh nhân công nghệ do Chủ tịch Tập Cận Bình chủ trì tại Bắc Kinh vào cuối tháng 2.

📌 DeepSeek, startup AI Trung Quốc thành lập năm 2023, giới thiệu phương pháp mới cải thiện khả năng suy luận của LLM. Công ty dự kiến ra mắt mô hình R2 trong tháng 4/2025, thu hút sự chú ý toàn cầu sau thành công của R1. DeepSeek tiếp tục tập trung vào nghiên cứu và phát triển, hứa hẹn mang lại những tiến bộ đáng kể trong lĩnh vực AI.

https://www.scmp.com/tech/tech-trends/article/3305259/deepseek-unveils-new-ai-reasoning-method-anticipation-its-next-gen-model-rises

Không có file đính kèm.

Nguồn tham khảo

AI models AI mở-nguồn mở 2025-04-06 06:54:23

Bước ngoặt của Meta: Llama 4 ra mắt với khả năng xử lý 10 triệu token, đối đầu trực tiếp với DeepSeek

- Meta vừa công bố dòng mô hình Llama 4 vào ngày 5/4/2025, với hai phiên bản đã sẵn sàng: Llama 4 Maverick (400 tỷ tham số) và Llama 4 Scout (109 tỷ tham số), cùng một mô hình khổng lồ Behemoth 2 nghìn tỷ tham số đang được phát triển.

- Động thái này được cho là phản ứng trực tiếp sau khi DeepSeek, startup AI Trung Quốc, ra mắt mô hình DeepSeek R1 vào tháng 1/2025, vượt trội Meta với chi phí đào tạo thấp hơn nhiều.

- Tất cả mô hình Llama 4 đều là đa phương thức, có thể xử lý và tạo ra văn bản, video và hình ảnh, với cửa sổ ngữ cảnh cực dài - 1 triệu token cho Maverick và 10 triệu token cho Scout (tương đương khoảng 15.000 trang văn bản).

- Các mô hình này sử dụng kiến trúc "mixture-of-experts" (MoE) với 128 chuyên gia khác nhau, giúp tăng hiệu quả khi chỉ kích hoạt một phần tham số cần thiết cho mỗi tác vụ.

- Chi phí suy luận của Llama 4 Maverick ước tính từ 0,19 đến 0,49 USD cho mỗi 1 triệu token, rẻ hơn đáng kể so với GPT-4o (4,38 USD/triệu token).

- Meta đã phát triển kỹ thuật mới MetaP cho phép điều chỉnh siêu tham số trên một mô hình và áp dụng cho các mô hình khác kích thước, tiết kiệm thời gian và chi phí đào tạo.

- Llama 4 Behemoth vượt trội GPT-4.5, Gemini 2.0 Pro và Claude Sonnet 3.7 trong một số điểm chuẩn như MATH-500 (95.0), GPQA Diamond (73.7) và MMLU Pro (82.2).

- Maverick vượt qua GPT-4o và Gemini 2.0 Flash trong hầu hết các đánh giá suy luận đa phương thức như ChartQA (90.0 so với 85.7 của GPT-4o) và DocVQA (94.4 so với 92.8).

- So với DeepSeek R1 và OpenAI o1, Llama 4 Behemoth vẫn còn kém hơn trong một số chỉ số như MATH-500 và MMLU, nhưng vẫn cạnh tranh mạnh mẽ.

- Meta cũng nhấn mạnh cải tiến về an toàn và giảm "thiên kiến chính trị" với các công cụ như Llama Guard, Prompt Guard và CyberSecEval để phát hiện đầu vào/đầu ra không an toàn.

📌 Meta phản công DeepSeek với Llama 4 sử dụng kiến trúc MoE, cung cấp khả năng xử lý ngữ cảnh lên đến 10 triệu token, chi phí chỉ 0,19-0,49 USD/triệu token. Mặc dù chưa vượt qua hoàn toàn DeepSeek R1 và OpenAI o1, Llama 4 đã đặt nền móng vững chắc cho AI nguồn mở cạnh tranh với các mô hình độc quyền.

https://venturebeat.com/ai/metas-answer-to-deepseek-is-here-llama-4-launches-with-long-context-scout-and-maverick-models-and-2t-parameter-behemoth-on-the-way/

Không có file đính kèm.

Nguồn tham khảo

114

AI mở-nguồn mở AI tools 2025-04-05 01:07:29

Open Deep Search: Đối thủ nguồn mở đe dọa thống trị của Perplexity và ChatGPT Search

- Các nhà nghiên cứu tại Sentient Foundation vừa phát hành Open Deep Search (ODS), một framework nguồn mở có thể sánh ngang với các giải pháp tìm kiếm AI độc quyền như Perplexity và ChatGPT Search.

- ODS trang bị cho các mô hình ngôn ngữ lớn (LLM) các agent lập luận tiên tiến có khả năng sử dụng tìm kiếm web và các công cụ khác để trả lời câu hỏi.

- Theo Himanshu Tyagi, đồng sáng lập Sentient, hầu hết đổi mới trong lĩnh vực tìm kiếm AI đều diễn ra sau cánh cửa đóng, trong khi các nỗ lực nguồn mở thường thua kém về khả năng sử dụng và hiệu suất.

- ODS được thiết kế như một hệ thống plug-and-play có thể tích hợp với cả mô hình nguồn mở như DeepSeek-R1 và mô hình đóng như GPT-4o và Claude.

- Framework này gồm hai thành phần chính: Open Search Tool (lấy truy vấn và truy xuất thông tin từ web) và Open Reasoning Agent (sử dụng LLM và các công cụ khác nhau để đưa ra câu trả lời cuối cùng).

- ODS cung cấp hai kiến trúc agent: ODS-v1 (sử dụng framework ReAct kết hợp với Chain-of-Thought) và ODS-v2 (tận dụng Chain-of-Code và CodeAct agent).

- Khi đánh giá hiệu suất, ODS kết hợp với DeepSeek-R1 vượt trội hơn các sản phẩm chủ lực của Perplexity. ODS-v2 kết hợp với DeepSeek-R1 thậm chí vượt qua GPT-4o Search Preview trên bộ benchmark FRAMES phức tạp.

- Các agent lập luận trong cả hai phiên bản ODS học cách sử dụng công cụ tìm kiếm một cách thận trọng, thường quyết định liệu có cần tìm kiếm bổ sung dựa trên chất lượng kết quả ban đầu.

- Đối với doanh nghiệp tìm kiếm khả năng lập luận AI mạnh mẽ dựa trên thông tin thời gian thực, ODS cung cấp giải pháp minh bạch, có thể tùy chỉnh và hiệu suất cao thay thế cho hệ thống tìm kiếm AI độc quyền.

- Sentient đã phát hành mã nguồn ODS trên GitHub, với mục tiêu vượt qua khả năng của Perplexity và ChatGPT thông qua chiến lược "đầu vào mở và đầu ra mở".

📌 Open Deep Search từ Sentient Foundation đang thách thức các nền tảng tìm kiếm AI độc quyền với framework nguồn mở có thể tích hợp với nhiều LLM. Kết quả thử nghiệm cho thấy ODS-v2 với DeepSeek-R1 vượt trội hơn Perplexity và gần bằng GPT-4o Search Preview, mở ra cơ hội cho doanh nghiệp tìm kiếm giải pháp AI tùy biến và minh bạch.

https://venturebeat.com/ai/open-deep-search-arrives-to-challenge-perplexity-and-chatgpt-search/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2025-04-04 07:04:01

Trung Quốc đang thúc đẩy AI nguồn mở, nhưng xu hướng này có thể sớm kết thúc

- Trung Quốc đang thúc đẩy mạnh mẽ các mô hình AI nguồn mở, với sự tham gia của các công ty lớn như Alibaba, Tencent và Baidu.

- DeepSeek, một startup Trung Quốc, đã phát hành mô hình ngôn ngữ lớn tiên tiến miễn phí vào đầu năm 2025.

- Yann LeCun, nhà khoa học AI hàng đầu của Meta, nhận định rằng "các mô hình nguồn mở đang vượt qua các mô hình độc quyền".

- Chiến lược nguồn mở giúp Trung Quốc vượt qua các hạn chế công nghệ từ Mỹ, đặc biệt là việc tiếp cận chip AI tiên tiến của Nvidia.

- Ant (thuộc Alibaba) đã phát triển kỹ thuật huấn luyện mô hình AI trên chip nội địa của Huawei, cho kết quả tương đương với chip Nvidia.

- Liên minh châu Âu cũng đang ủng hộ mạnh mẽ cách tiếp cận nguồn mở, với kế hoạch đầu tư 200 tỷ euro vào "đổi mới mở và hợp tác" trong lĩnh vực AI.

- Việc chia sẻ đổi mới công nghệ miễn phí giúp Trung Quốc nâng cao sức mạnh mềm và uy tín toàn cầu.

- Tuy nhiên, chiến lược nguồn mở cũng có nhược điểm: hạn chế khả năng tạo doanh thu của các công ty, có thể ảnh hưởng đến đầu tư trong tương lai.

- Alibaba đã cam kết đầu tư khoảng 53 tỷ USD vào AI và điện toán đám mây, nhưng lợi nhuận thấp có thể ảnh hưởng đến giá cổ phiếu và định giá công ty.

- Các quy định nghiêm ngặt của chính phủ Trung Quốc về nội dung AI có thể gây khó khăn cho việc phát triển các mô hình nguồn mở phi tập trung.

- Khi các công ty Trung Quốc bắt kịp hoặc vượt qua đối thủ phương Tây, Bắc Kinh có thể thay đổi quan điểm về việc chia sẻ công nghệ có tiềm năng ảnh hưởng đến an ninh quốc gia.

📌 Trung Quốc đang thúc đẩy AI nguồn mở để vượt qua hạn chế công nghệ và nâng cao vị thế toàn cầu. Tuy nhiên, chiến lược này có thể gặp thách thức do hạn chế về lợi nhuận và lo ngại an ninh quốc gia. Tương lai của AI nguồn mở tại Trung Quốc vẫn còn nhiều bất định.

https://www.reuters.com/breakingviews/chinas-love-open-source-ai-may-shut-down-fast-2025-04-02/

Không có file đính kèm.

Nguồn tham khảo

139

AI market AI mở-nguồn mở 2025-04-04 06:18:16

Mỹ đón "khoảnh khắc DeepSeek": Sentient ra mắt của công nghệ AI nguồn mở đột phá từ Open Deep Search (ODS)

- Sentient, phòng thí nghiệm phát triển AI có trụ sở tại San Francisco với giá trị 1,2 tỷ USD, vừa công bố phát hành công khai Open Deep Search (ODS) - một framework tìm kiếm AI nguồn mở.
- Công ty tuyên bố ODS vượt trội hơn các đối thủ cạnh tranh nguồn đóng lớn như Perplexity và GPT-4o Search Preview của OpenAI trong các tiêu chuẩn đánh giá chính.
- Được hậu thuẫn bởi Founder's Fund của Peter Thiel, Sentient khẳng định sản phẩm của họ là câu trả lời của Mỹ cho DeepSeek của Trung Quốc.
- Sentient hoạt động phi lợi nhuận và lập luận rằng sự phát triển AI "nên thuộc về cộng đồng, không bị kiểm soát bởi các tập đoàn nguồn đóng".
- Theo thử nghiệm của Sentient, ODS đạt độ chính xác 75,3% trên tiêu chuẩn FRAMES, vượt xa GPT-4o Search Preview (50,5%) và Perplexity Sonar Reasoning Pro (44,4%).
- ODS sử dụng Open Search Tool của Sentient, được hỗ trợ bởi framework agent, để diễn đạt lại các truy vấn và trích xuất ngữ cảnh từ kết quả.
- Để làm cho ODS hiệu quả hơn, các nguồn "sự thật nền tảng" như Wikipedia đã bị loại trừ, đảm bảo các mô hình "dựa vào hệ thống truy xuất" thay vì được hỗ trợ nhân tạo.
- Himanshu Tyagi, đồng sáng lập Sentient, cho biết ODS đạt được những con số này bằng cách sử dụng "phương pháp tiếp cận agent viết mã tự sửa lỗi".
- Khi framework bỏ sót một phần thông tin quan trọng, nó gọi lại công cụ tìm kiếm với truy vấn cụ thể hơn để truy xuất thông tin chính xác hơn.
- Khi DeepSeek thu hút sự chú ý toàn cầu vào tháng 1, giáo sư Bogna Konior từ Đại học NYU Thượng Hải nhận xét: "Chúng ta thường xuyên để AI soạn thảo suy nghĩ của mình - một sự phát triển đáng kinh ngạc như chính sự phát minh ra ngôn ngữ".
- Sentient tin rằng "khoảnh khắc DeepSeek" của Mỹ đã đến, với triết lý "khi công nghệ nguồn mở được phát hành ra thế giới, nó không thể bị kiềm chế".

📌 Sentient, công ty AI phi lợi nhuận trị giá 1,2 tỷ USD, đã ra mắt Open Deep Search với độ chính xác 75,3% trên tiêu chuẩn FRAMES, vượt xa các đối thủ lớn. Đây được coi là "khoảnh khắc DeepSeek" của Mỹ, thúc đẩy triết lý AI thuộc về cộng đồng, không bị kiểm soát bởi các tập đoàn nguồn đóng.

https://decrypt.co/312580/americas-deepseek-moment-peter-thiel-non-profit

Không có file đính kèm.

Nguồn tham khảo

103

OpenAI ChatGPT AI mở-nguồn mở 2025-04-01 07:01:38

Sam Altman: OpenAI sắp tung mô hình AI trọng số mở đối đầu trực tiếp với DeepSeek và Meta

Sam Altman đã tiết lộ trên nền tảng X rằng OpenAI sẽ phát hành một mô hình ngôn ngữ trọng số mở mạnh mẽ với khả năng lập luận trong những tháng tới.
Altman cho biết công ty đã cân nhắc việc phát hành mô hình trọng số mở từ lâu, và "giờ đây cảm thấy điều này quan trọng cần thực hiện".
Động thái này một phần là phản ứng trước thành công vang dội của mô hình R1 từ công ty Trung Quốc DeepSeek, cũng như sự phổ biến của các mô hình Llama của Meta.
OpenAI có thể cảm thấy cần chứng minh khả năng huấn luyện mô hình mới với chi phí thấp hơn, khi mô hình của DeepSeek được cho là đã được huấn luyện với chi phí chỉ bằng một phần nhỏ so với hầu hết các mô hình AI lớn khác.
Clement Delangue, đồng sáng lập và CEO của HuggingFace - công ty chuyên về lưu trữ các mô hình AI mở, nhận xét: "Đây là tin tuyệt vời. Với DeepSeek, mọi người đang nhận ra sức mạnh của trọng số mở."
Hiện tại, OpenAI cung cấp AI thông qua chatbot và đám mây. Các mô hình trọng số mở như R1, Llama có thể được tải xuống miễn phí và chỉnh sửa.
"Trọng số" của mô hình đề cập đến các giá trị bên trong mạng nơ-ron lớn được thiết lập trong quá trình huấn luyện. Các mô hình trọng số mở có chi phí sử dụng thấp hơn và có thể được điều chỉnh cho các trường hợp nhạy cảm, như xử lý thông tin tuyệt mật.
Steven Heidel, thành viên đội ngũ kỹ thuật tại OpenAI, đã chia sẻ lại thông báo của Altman và bổ sung: "Chúng tôi sẽ phát hành một mô hình năm nay mà bạn có thể chạy trên phần cứng của riêng mình."
OpenAI cũng đã đăng một trang web mời các nhà phát triển đăng ký truy cập sớm vào mô hình sắp tới. Altman cho biết công ty sẽ tổ chức các sự kiện cho nhà phát triển với các nguyên mẫu ban đầu của mô hình mới trong những tuần tới.
Meta là công ty AI lớn đầu tiên theo đuổi cách tiếp cận mở hơn, phát hành phiên bản đầu tiên của Llama vào tháng 7/2023. Hiện có ngày càng nhiều mô hình AI trọng số mở.
Một số nhà nghiên cứu lưu ý rằng Llama và một số mô hình khác không minh bạch như có thể vì dữ liệu huấn luyện và các chi tiết khác vẫn được giữ bí mật. Meta cũng áp đặt giấy phép giới hạn khả năng kiếm lợi nhuận từ các ứng dụng và công cụ được xây dựng bằng Llama.

📌 OpenAI sẽ phát hành mô hình AI trọng số mở vào mùa hè 2025, đáp ứng thành công của DeepSeek và áp lực từ Meta. Mô hình này sẽ cho phép người dùng chạy trên phần cứng riêng, mang lại chi phí thấp hơn và khả năng tùy chỉnh cho các ứng dụng nhạy cảm.

https://www.wired.com/story/openai-sam-altman-announce-open-source-model/

Sam Altman nói OpenAI sẽ phát hành mô hình AI "Open Weight" vào mùa hè này

Thông tin này được đưa ra sau thành công vang dội của DeepSeek và áp lực ngày càng tăng từ các đối thủ như Meta.

Sam Altman hôm nay tiết lộ rằng OpenAI sẽ phát hành một mô hình trí tuệ nhân tạo open weight trong những tháng tới.

"Chúng tôi rất vui mừng được phát hành một mô hình ngôn ngữ open-weight mạnh mẽ với khả năng lập luận trong những tháng tới," Altman viết trên X.

Altman cho biết trong bài đăng rằng công ty đã suy nghĩ về việc phát hành một mô hình open weight từ lâu, đồng thời bổ sung rằng "giờ đây việc này cảm thấy quan trọng phải làm."

Động thái này một phần là phản ứng với thành công vang dội của mô hình R1 từ công ty Trung Quốc DeepSeek, cũng như sự phổ biến của các mô hình Llama của Meta.

OpenAI cũng có thể cảm thấy cần phải chứng tỏ rằng họ có thể đào tạo mô hình mới với chi phí thấp hơn, vì mô hình của DeepSeek được cho là đã được đào tạo với chi phí chỉ bằng một phần nhỏ so với hầu hết các mô hình AI lớn.

"Đây là tin tuyệt vời," Clement Delangue, đồng sáng lập và CEO của HuggingFace, một công ty chuyên về lưu trữ các mô hình AI mở, nói với WIRED. "Với DeepSeek, mọi người đang nhận ra sức mạnh của open weights."

OpenAI hiện cung cấp AI của mình thông qua một chatbot và thông qua đám mây. R1, Llama và các mô hình open weight khác có thể được tải xuống miễn phí và sửa đổi. Weights của một mô hình đề cập đến các giá trị bên trong một mạng nơ-ron lớn—thứ được thiết lập trong quá trình đào tạo. Các mô hình open weight rẻ hơn để sử dụng và cũng có thể được điều chỉnh cho các trường hợp sử dụng nhạy cảm, như xử lý thông tin có độ bảo mật cao.

Steven Heidel, một thành viên của đội ngũ kỹ thuật tại OpenAI, đã đăng lại thông báo của Altman và bổ sung rằng "chúng tôi đang phát hành một mô hình trong năm nay mà bạn có thể chạy trên phần cứng của riêng mình."

Hôm nay OpenAI cũng đăng một trang web mời các nhà phát triển đăng ký truy cập sớm vào mô hình sắp tới. Altman cho biết trong bài đăng của mình rằng công ty sẽ tổ chức các sự kiện cho các nhà phát triển với các nguyên mẫu ban đầu của mô hình mới trong những tuần tới.

Meta là công ty AI lớn đầu tiên theo đuổi một cách tiếp cận mở hơn, phát hành phiên bản đầu tiên của Llama vào tháng 7 năm 2023. Ngày càng có nhiều mô hình AI open weight hiện có sẵn. Một số nhà nghiên cứu lưu ý rằng Llama và một số mô hình khác không minh bạch như chúng có thể bởi vì dữ liệu đào tạo và các chi tiết khác vẫn được giữ bí mật. Meta cũng áp đặt một giấy phép giới hạn khả năng của các công ty khác trong việc kiếm lợi từ ứng dụng và công cụ được xây dựng bằng Llama.

Cập nhật 31/3/25 4:21 EST: Bài viết này đã được cập nhật với bình luận từ Clement Delangue, đồng sáng lập và CEO của HuggingFace.

Không có file đính kèm.

Nguồn tham khảo

181

AI mở-nguồn mở 2025-03-29 20:43:04

Model Context Protocol cập nhật - OpenAI và Microsoft đồng loạt hỗ trợ tiêu chuẩn nguồn mở này

Model Context Protocol (MCP) - tiêu chuẩn nguồn mở giúp các agent AI tương tác liền mạch với công cụ, dữ liệu và giao diện - vừa đạt cột mốc quan trọng với phiên bản cập nhật mới.
OpenAI đã thông báo hỗ trợ MCP trên các sản phẩm của mình. CEO Sam Altman cho biết tính năng này đã có sẵn trong OpenAI's Agents SDK và sẽ sớm được triển khai trên ứng dụng desktop ChatGPT và Responses API.
Microsoft cũng công bố hỗ trợ MCP, bao gồm việc ra mắt Playwright-MCP server mới cho phép các agent AI như Claude duyệt web và tương tác với các trang web sử dụng cây truy cập Chrome.
Bản cập nhật ngày 26/3 mang đến nhiều thay đổi quan trọng ở cấp độ giao thức:
Khung ủy quyền dựa trên OAuth 2.1: tăng cường bảo mật cho giao tiếp agent-server
Giao thức HTTP có khả năng truyền luồng: thay thế HTTP+SSE cũ, cho phép luồng dữ liệu hai chiều thời gian thực
Phân lô JSON-RPC: cho phép gửi nhiều yêu cầu cùng lúc, cải thiện hiệu quả
Chú thích công cụ: thêm metadata phong phú để mô tả hành vi công cụ
Giao thức sử dụng nền tảng JSON-RPC 2.0 dạng module với kiến trúc phân lớp, tách biệt vận chuyển cốt lõi, quản lý vòng đời, tính năng máy chủ và tính năng khách hàng.
Microsoft đã phát hành Playwright-MCP, một server kết hợp công cụ tự động hóa trình duyệt với tiêu chuẩn MCP, cho phép các agent AI như Claude có thể click, gõ, duyệt và tương tác với web.
Bộ công cụ có sẵn bao gồm: điều hướng (browser_navigate, go_back, go_forward), nhập liệu (browser_type, browser_click, browser_press_key), ảnh chụp (browser_snapshot, browser_screenshot) và tương tác dựa trên phần tử.
Anthropic giới thiệu MCP vào cuối năm 2023 để giải quyết vấn đề: các agent AI cần tương tác với công cụ thực tế nhưng mỗi ứng dụng nói một "ngôn ngữ" khác nhau.
Với sự hỗ trợ từ Anthropic, LangChain, Microsoft và giờ là OpenAI, MCP đang nổi lên như một ứng cử viên nghiêm túc để trở thành lớp tiêu chuẩn kết nối các agent.
Alexander Doria, đồng sáng lập startup AI Pleias nhận định: "Chúng ta đang bước vào kỷ nguyên giao thức của AI. Đây là cách các agent sẽ thực sự thực hiện công việc."

📌 Model Context Protocol (MCP) đã đạt bước tiến lớn với phiên bản cập nhật mới và sự hỗ trợ từ cả OpenAI và Microsoft. Với khung ủy quyền OAuth 2.1, giao thức HTTP có khả năng truyền luồng và phân lô JSON-RPC, MCP đang định hình tương lai của tương tác liền mạch giữa các agent AI với công cụ và dữ liệu.

https://venturebeat.com/ai/the-open-source-model-context-protocol-was-just-updated-heres-why-its-a-big-deal/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2025-03-29 20:03:12

Bộ trưởng CNTT Ấn Độ: các mô hình AI nguồn mở biến mất, thúc đẩy phát triển LLM nội địa của Ấn Độ

Bộ trưởng công nghệ thông tin Ấn Độ Ashwini Vaishnaw đã tuyên bố rằng một trong những lý do chính Ấn Độ cần phát triển mô hình ngôn ngữ lớn (LLM) riêng là vì các mô hình AI có thể không duy trì tính nguồn mở vô thời hạn.
Vinod Dham, cố vấn sáng lập của Agrani Labs, còn được biết đến là "Cha đẻ của Pentium", đề xuất Ấn Độ nên áp dụng phương pháp tiếp cận kết hợp và tận dụng các mô hình mở, do chi phí hàng tỷ đô la để xây dựng mô hình độc quyền.
Vaishnaw phản đối quan điểm này, cho rằng Ấn Độ không nên ngần ngại xây dựng mô hình riêng vì các mô hình nguồn mở cuối cùng có thể không còn khả dụng.
Ông chỉ trích OpenAI, nêu rõ cách họ chuyển đổi mô hình sang dạng đóng sau GPT-2, gợi ý rằng các nhà phát triển mô hình nguồn mở hiện nay có thể áp dụng cách tiếp cận tương tự.
Nhiều chuyên gia trong ngành chia sẻ quan điểm tương tự, trong đó có Paras Chopra, người sáng lập Lossfunk, đặt câu hỏi về tính khả dụng lâu dài của các mô hình nguồn mở như Llama và DeepSeek trong 5 năm tới.
Chính phủ Ấn Độ đã công bố sứ mệnh IndiaAI và phân bổ 10.000 crore rupee (khoảng 1,2 tỷ USD) trong 5 năm để phát triển cơ sở hạ tầng và mô hình AI nội địa.
Vaishnaw dự đoán LLM của Ấn Độ sẽ sẵn sàng trong vòng 10 tháng tới.
Ngân sách Liên bang 2025 đã phân bổ 2.000 crore rupee (khoảng 240 triệu USD) cho sứ mệnh IndiaAI và đã nhận được 67 đề xuất phát triển mô hình AI nền tảng bản địa, bao gồm 22 LLM.
Quốc hội Ấn Độ đã ký biên bản ghi nhớ với sứ mệnh IndiaAI để tạo điều kiện thu thập bộ dữ liệu lớn cho việc đào tạo từ nhiều nguồn như Doordarshan và All India Radio.
Chính phủ đã ra mắt AI Kosha và Compute Portal trong khuôn khổ Sứ mệnh IndiaAI để cung cấp cho các startup và nhà nghiên cứu quyền truy cập vào bộ dữ liệu và tài nguyên điện toán hiệu suất cao.
Sứ mệnh IndiaAI sẽ có hơn 18.000 GPU thông qua hợp tác công-tư với các công ty như Jio Platforms, NxtGen Data Centre, và nhiều đối tác khác.

📌 Ấn Độ đang đầu tư 1,2 tỷ USD vào phát triển AI nội địa với 67 đề xuất mô hình nền tảng. Bộ trưởng CNTT cảnh báo về sự biến mất của mô hình nguồn mở, dự kiến ra mắt LLM riêng trong 10 tháng tới với hệ thống 18.000 GPU.

https://analyticsindiamag.com/ai-news-updates/open-source-ai-models-may-cease-to-exist-it-minister/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-03-29 19:58:29

Tại sao AI nguồn mở là chìa khóa để phá vỡ sự thống trị của gã khổng lồ công nghệ

DeepSeek đã làm nguồn mở trở nên thịnh hành trở lại khi sử dụng các framework nguồn mở để đạt được khả năng suy luận tinh vi, khiến Baidu cũng mở mã nguồn mô hình ERNIE và CEO OpenAI Sam Altman thừa nhận công ty của ông có thể đang "đứng sai phía của lịch sử".
Ngành AI hiện có hai mô hình rõ rệt: hệ sinh thái đóng do các gã khổng lồ như OpenAI và Microsoft thúc đẩy, đối đầu với nền tảng nguồn mở được ủng hộ bởi Meta và Mistral.
Lịch sử phát triển phần mềm cho thấy mỗi cuộc cách mạng đều là cuộc đấu tranh giữa hệ thống mở và đóng: từ thời IBM thống trị với hệ thống đóng, đến Linux nguồn mở thách thức Windows, PostgreSQL và MySQL trở thành giải pháp thay thế cho cơ sở dữ liệu Oracle.
Vendor lock-in (phụ thuộc vào nhà cung cấp) kìm hãm đổi mới, giới hạn sự linh hoạt và tạo ra lỗ hổng, đặc biệt khi AI ngày càng được tích hợp vào quy trình kinh doanh quan trọng.
Mô hình AI nguồn mở mang lại 3 lợi thế quan trọng: giữ thông tin nhạy cảm trong cơ sở hạ tầng của tổ chức, cho phép tùy chỉnh theo nhu cầu riêng, và tránh phí mở rộng từ nhà cung cấp.
Microsoft đã đầu tư hơn 13 tỷ USD vào OpenAI và tích hợp GPT-4 vào toàn bộ hệ sinh thái từ Azure đến Office, GitHub và Bing, tạo hiệu ứng lock-in mạnh mẽ.
"Cách mạng suy luận" đang nổi lên khi các mô hình như DeepSeek's R1 chứng minh rằng khả năng suy luận tinh vi có thể cạnh tranh với hệ thống độc quyền dựa vào quy mô lớn.
Chuỗi giá trị AI truyền thống hiện bị thống trị bởi một số ít công ty trong phần cứng (Nvidia), phát triển mô hình (OpenAI, Anthropic) và cơ sở hạ tầng (AWS, Azure, GCP).
Các công ty như Groq đang thách thức Nvidia trong lĩnh vực phần cứng, Mistral xây dựng mô hình sáng tạo cạnh tranh với OpenAI, Hugging Face dân chủ hóa quyền truy cập vào mô hình.
Mô hình nguồn mở cũng mang rủi ro: dữ liệu đào tạo có thể bị chiếm đoạt, tác nhân độc hại có thể phát triển ứng dụng có hại như malware hoặc deepfake, công ty có thể vượt qua ranh giới đạo đức.
Các biện pháp quản trị chiến lược như trì hoãn phát hành mô hình tiên tiến và chia sẻ trọng số một phần có thể giúp giảm thiểu những rủi ro này.

📌 Cuộc chiến giữa AI nguồn mở và hệ thống đóng không chỉ là cuộc tranh luận kỹ thuật mà còn quyết định tương lai của ngành công nghiệp nghìn tỷ đô. Mô hình nguồn mở đang phá vỡ cấu trúc độc quyền, thúc đẩy đổi mới và dân chủ hóa AI, mặc dù cần cân bằng với các biện pháp quản trị để giảm thiểu rủi ro.

https://fortune.com/asia/2025/03/27/open-source-vs-closed-ai-race-capital-alfred-chuang/

Tại sao mã nguồn mở là then chốt để đảm bảo cạnh tranh trong AI

Tác giả: Alfred Chuang

Alfred Chuang là đối tác điều hành tại Race Capital, công ty đầu tư trên toàn bộ phổ AI, bao gồm cả giải pháp mã nguồn mở và mã nguồn đóng.

27 tháng 3, 2025, 9:00 tối UTC

Alfred Chuang của Race Capital gọi cuộc tranh luận giữa mở và đóng là một cuộc tranh luận cơ bản về ai sẽ kiểm soát tiềm năng của AI khi một ngành công nghiệp hàng nghìn tỷ đô la đang hình thành.

Hình ảnh: Ramsey Cardy—Sportsfile for Web Summit Qatar qua Getty Images

DeepSeek đã làm cho mã nguồn mở trở nên thịnh hành trở lại. Quyết định của startup Trung Quốc này sử dụng các framework mã nguồn mở để đạt được khả năng lập luận tinh vi đã làm rung chuyển hệ sinh thái AI: Kể từ đó, Baidu đã công bố mã nguồn mở cho mô hình ERNIE của mình, trong khi CEO OpenAI Sam Altman đã nói rằng ông nghĩ công ty không mã nguồn mở của mình có thể đang ở "sai phía của lịch sử".

Hiện nay có hai mô hình riêng biệt trong lĩnh vực AI: hệ sinh thái đóng được thúc đẩy bởi các gã khổng lồ như OpenAI và Microsoft, so với các nền tảng mã nguồn mở được ủng hộ bởi các công ty như Meta và Mistral.

Đây không chỉ là một cuộc tranh luận kỹ thuật. Mở hay đóng là một cuộc tranh luận cơn bản về tương lai của AI và ai sẽ kiểm soát tiềm năng rộng lớn của công nghệ mới này khi một ngành công nghiệp hàng nghìn tỷ đô la đang hình thành.

Bài học từ lịch sử

Mọi cuộc cách mạng phần mềm, từ cốt lõi, đều là một cuộc đấu tranh giữa hệ thống mở và đóng.

Trong thời đại máy tính lớn, IBM và hệ thống đóng của họ thống trị, tạo ra câu ngạn ngữ: "Không ai từng bị sa thải vì chọn IBM". Nhưng khi công nghệ phát triển, các doanh nghiệp chuyển sang hệ thống mở giải phóng họ khỏi ràng buộc của nhà cung cấp.

Chu kỳ này đã xảy ra lặp đi lặp lại. Linux mã nguồn mở thách thức Microsoft Windows. PostgreSQL và MySQL trở thành giải pháp thay thế cho cơ sở dữ liệu của Oracle.

Sự ràng buộc với nhà cung cấp, khi việc chuyển đổi nhà cung cấp trở nên gần như không thể, làm nghẹt sự đổi mới, hạn chế sự linh hoạt và tạo ra tính dễ bị tổn thương. Những rủi ro tương tự sẽ chỉ tăng lên khi AI ngày càng được tích hợp vào các quy trình kinh doanh quan trọng.

Các nền tảng mở giảm thiểu những rủi ro đó, cho phép tổ chức thay đổi nhà cung cấp hoặc đưa giải pháp vào nội bộ mà không phải chịu chi phí tê liệt.

Tại sao mã nguồn mở quan trọng

Người tiêu dùng có thể thích sự tiện lợi của nền tảng đóng. Tuy nhiên, doanh nghiệp có những ưu tiên khác. Tổ chức không thể gửi dữ liệu nhạy cảm và thông tin độc quyền thông qua các API hộp đen mà họ không kiểm soát.

Mô hình AI mã nguồn mở cung cấp ba lợi thế quan trọng.

Thứ nhất, các mô hình mở giữ thông tin nhạy cảm trong cơ sở hạ tầng của tổ chức, giảm nguy cơ rò rỉ dữ liệu từ tương tác với máy chủ bên ngoài.

Thứ hai, doanh nghiệp có thể điều chỉnh các mô hình mã nguồn mở theo nhu cầu riêng, tinh chỉnh mô hình với dữ liệu độc quyền của họ mà không bị hạn chế bởi hệ thống đóng.

Cuối cùng, tổ chức có thể tránh phí mở rộng do nhà cung cấp tính bằng cách triển khai các mô hình mã nguồn mở trên cơ sở hạ tầng của chính họ.

Nền tảng đóng có thể đơn giản, nhưng không cung cấp sự an toàn, linh hoạt và chi phí thấp của mô hình mã nguồn mở.

Một cách mỉa mai, sự phát triển của OpenAI được xây dựng trên nền tảng mã nguồn mở. Bài báo "Attention Is All You Need" được Google công bố vào năm 2017 đã cung cấp bản thiết kế cho các mô hình ngôn ngữ hiện đại. Tuy nhiên, bất chấp nền tảng này, OpenAI đã chuyển từ nguyên tắc mã nguồn mở ban đầu sang mô hình khép kín hơn, làm dấy lên câu hỏi về cam kết của họ trong việc đảm bảo rằng AI mang lại lợi ích cho "toàn thể nhân loại".

Quan hệ đối tác của Microsoft với OpenAI đã nhanh chóng đặt gã khổng lồ công nghệ này vào vị trí hàng đầu trong bối cảnh AI thương mại. Với hơn 13 tỷ đô la đầu tư, Microsoft đã tích hợp GPT-4 trên toàn bộ hệ sinh thái của mình—từ Azure đến các ứng dụng Office thông qua Copilot, GitHub và Bing—tạo ra hiệu ứng ràng buộc mạnh mẽ cho các doanh nghiệp phụ thuộc vào những công cụ này.

Về mặt lịch sử, hệ thống AI đóng đã thống trị thông qua chiến lược vũ lực: Mở rộng dữ liệu, tham số và sức mạnh điện toán để thống trị thị trường và tạo ra rào cản gia nhập.

Tuy nhiên, một mô hình mới đang nổi lên: cuộc cách mạng về lập luận. Các mô hình như DeepSeek's R1 chứng minh rằng khả năng lập luận tinh vi có thể cạnh tranh với các hệ thống độc quyền phụ thuộc vào quy mô thuần túy. Lập luận là một con ngựa thành Troy cho AI mã nguồn mở, thách thức cảnh quan cạnh tranh bằng cách chứng minh rằng những tiến bộ thuật toán có thể làm giảm lợi thế của các nền tảng đóng.

Điều này mở ra cơ hội quan trọng cho các phòng thí nghiệm và startup nhỏ hơn. AI mã nguồn mở thúc đẩy đổi mới tập thể với chi phí chỉ bằng một phần nhỏ so với hệ thống đóng, dân chủ hóa quyền truy cập và khuyến khích đóng góp từ nhiều đối tượng tham gia hơn.

Hiện tại, chuỗi giá trị AI truyền thống bị thống trị bởi một số ít công ty trong lĩnh vực phần cứng (Nvidia), phát triển mô hình (OpenAI, Anthropic) và cơ sở hạ tầng (Amazon Web Services, Microsoft Azure, Google Cloud Platform). Điều này đã tạo ra rào cản đáng kể cho việc gia nhập, do yêu cầu cao về vốn và sức mạnh tính toán.

Nhưng những đổi mới mới, như động cơ suy luận được tối ưu hóa và phần cứng chuyên dụng, đang phá vỡ cấu trúc đơn khối này.

Ngăn xếp AI đang được tách rời trong hệ sinh thái mới này. Các công ty như Groq đang thách thức Nvidia trong lĩnh vực phần cứng. (Groq là một trong những công ty trong danh mục đầu tư của Race Capital.) Các phòng thí nghiệm nhỏ hơn như Mistral đã xây dựng các mô hình sáng tạo có thể cạnh tranh với OpenAI và Anthropic. Các nền tảng như Hugging Face đang dân chủ hóa quyền truy cập vào các mô hình. Dịch vụ suy luận như Fireworks và Together đang giảm độ trễ và tăng thông lượng của các yêu cầu. Thị trường đám mây thay thế, như Lambda Labs và Fluidstack, cung cấp giá cả cạnh tranh với độc quyền Ba Lớn.

Cân bằng giữa mở và đóng

Tất nhiên, các mô hình mã nguồn mở cũng mang lại những rủi ro riêng. Dữ liệu đào tạo có thể bị chiếm đoạt trái phép. Tác nhân độc hại có thể phát triển các ứng dụng có hại, như phần mềm độc hại hoặc deepfakes. Các công ty cũng có thể vượt qua ranh giới đạo đức bằng cách sử dụng dữ liệu cá nhân mà không được phép, hy sinh quyền riêng tư dữ liệu để theo đuổi lợi thế cạnh tranh.

Các biện pháp quản trị chiến lược có thể giúp giảm thiểu những rủi ro này. Trì hoãn việc phát hành các mô hình tiên tiến có thể tạo thời gian cho đánh giá bảo mật. Chia sẻ trọng số một phần cũng có thể hạn chế khả năng lạm dụng, đồng thời vẫn mang lại lợi ích nghiên cứu.

Tương lai của AI phụ thuộc vào khả năng cân bằng những lợi ích cạnh tranh này—giống như cách các hệ thống AI cân bằng trọng số và độ lệch để đạt hiệu suất tối ưu.

Lựa chọn giữa mở và đóng đại diện cho nhiều hơn là sở thích. Đó là một quyết định then chốt sẽ xác định quỹ đạo của cuộc cách mạng AI. Chúng ta phải chọn các khuôn khổ khuyến khích đổi mới, bao dung và quản trị đạo đức. Mã nguồn mở sẽ là cách để đạt được điều đó.

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-03-29 11:46:40

Sự thật về AI "nguồn mở": Khi các công ty lớn che giấu dữ liệu huấn luyện dưới vỏ bọc minh bạch

Khoảng 50 năm trước, Homebrew Computer Club bắt đầu gặp gỡ tại Menlo Park, California, thúc đẩy văn hóa hợp tác và chia sẻ phần mềm - những giá trị đã định hình phong trào nguồn mở nhưng hiện đang bị một số công ty AI xuyên tạc.
Nhiều mô hình AI nền tảng được gắn nhãn "nguồn mở" chỉ vì kiến trúc của chúng được cung cấp miễn phí, trong khi rất ít thông tin về cách huấn luyện các mô hình này được tiết lộ.
Stefano Maffulli, giám đốc điều hành của Open Source Initiative (OSI), đã ưu tiên làm rõ ý nghĩa thực sự của thuật ngữ "nguồn mở" trong kỷ nguyên AI kể từ năm 2022.
Phần mềm nguồn mở truyền thống bảo vệ tính toàn vẹn của nghiên cứu bằng cách đảm bảo khả năng tái tạo và thúc đẩy hợp tác toàn cầu, cho phép các nhà khoa học chia sẻ dữ liệu và giải pháp một cách tự do.
Các giấy phép nguồn mở thông thường được xây dựng xung quanh mã nguồn, nhưng hệ thống AI khác biệt vì phụ thuộc nhiều vào dữ liệu huấn luyện, thường từ các nguồn độc quyền hoặc được bảo vệ bởi luật bảo mật.
Phân tích của OSI cho thấy nhiều mô hình ngôn ngữ lớn phổ biến như Llama2, Llama 3.x (Meta), Grok (X), Phi-2 (Microsoft) và Mixtral (Mistral AI) không tương thích với nguyên tắc nguồn mở.
Ngược lại, các mô hình như OLMo của Allen Institute for AI và dự án cộng đồng LLM360's CrystalCoder tuân thủ tốt hơn tầm nhìn nguồn mở của OSI.
Một số công ty có thể đang lạm dụng nhãn nguồn mở để tránh các quy định được đề xuất trong Đạo luật AI 2024 của Liên minh Châu Âu, vốn miễn trừ phần mềm miễn phí và nguồn mở khỏi sự giám sát nghiêm ngặt.
Thực tiễn này - các công ty tuyên bố mở trong khi hạn chế truy cập vào các thành phần chính như thông tin về dữ liệu huấn luyện - được gọi là "openwashing".
Năm 2022, OSI đã khởi động nỗ lực phát triển định nghĩa AI nguồn mở (OSAID), dẫn đến OSAID 1.0, tiêu chuẩn chính thức đầu tiên cho các hệ thống AI thực sự mở.
OSAID giới thiệu khái niệm "thông tin dữ liệu" - yêu cầu công bố tất cả dữ liệu khi có thể về mặt pháp lý, hoặc ít nhất là tiết lộ nguồn, đặc điểm và phương pháp chuẩn bị bộ dữ liệu huấn luyện.
Các nhà nghiên cứu nên đánh giá nghiêm túc các mô hình AI công khai và kiểm tra xem nhà phát triển có đang công bố tất cả chi tiết, dữ liệu và công cụ cần thiết để xây dựng một hệ thống AI tương tự hay không.
Chính phủ và cơ quan tài trợ có thể thúc đẩy cộng đồng khoa học áp dụng các công cụ AI khuyến khích sự cởi mở và khả năng tái tạo thực sự, như Viện Y tế Quốc gia Hoa Kỳ yêu cầu người nhận tài trợ phải phát hành dữ liệu và phần mềm nghiên cứu theo giấy phép mở.

📌 Thuật ngữ "nguồn mở" đang bị lạm dụng trong lĩnh vực AI khi nhiều công ty chỉ công khai kiến trúc nhưng giấu dữ liệu huấn luyện. OSAID 1.0 của OSI đặt ra tiêu chuẩn mới cho AI thực sự mở, đòi hỏi minh bạch về dữ liệu và quy trình, bảo vệ tính toàn vẹn khoa học và khả năng tái tạo nghiên cứu.

https://www.nature.com/articles/d41586-025-00930-6

#NATURE

AI 'mã nguồn mở' không thực sự mở — đây là cách các nhà nghiên cứu có thể lấy lại thuật ngữ này

Nhiều công ty đang sử dụng sai nhãn 'mã nguồn mở'. Cộng đồng khoa học, vốn dựa vào tính minh bạch và khả năng tái tạo, phải chống lại xu hướng này.

Tác giả: Stefano Maffulli

Cách đây khoảng 50 năm, Câu lạc bộ Máy tính Homebrew — một nhóm những người đam mê và sở thích máy tính tự làm — bắt đầu gặp gỡ tại Menlo Park, California, nuôi dưỡng một nền văn hóa hợp tác, trao đổi kiến thức và chia sẻ phần mềm một cách cởi mở. Những giá trị này, vốn đã giúp định hình phong trào mã nguồn mở, hiện đang bị một số công ty trí tuệ nhân tạo (AI) lạm dụng.

Nhiều mô hình AI nền tảng được dán nhãn là 'mã nguồn mở' vì kiến trúc của chúng, bao gồm cấu trúc và thiết kế của mạng nơ-ron, được cung cấp miễn phí. Tuy nhiên, rất ít thông tin được tiết lộ về cách các mô hình được đào tạo. Với tư cách là giám đốc điều hành của Sáng kiến Mã nguồn Mở (OSI) có trụ sở tại Palo Alto, California, ưu tiên của tôi từ năm 2022 là làm rõ thuật ngữ này thực sự có nghĩa gì trong kỷ nguyên AI.

Hàng thập kỷ tiếp cận miễn phí các phần mềm không độc quyền — như R Studio cho điện toán thống kê và OpenFOAM cho động lực học chất lỏng — đã thúc đẩy khám phá khoa học. Phần mềm mã nguồn mở bảo vệ tính toàn vẹn của nghiên cứu bằng cách đảm bảo khả năng tái tạo. Nó cũng thúc đẩy hợp tác toàn cầu, cho phép các nhà khoa học tự do chia sẻ dữ liệu và giải pháp.

Các giấy phép mã nguồn mở thông thường được xây dựng xung quanh mã nguồn, dễ dàng chia sẻ với sự minh bạch hoàn toàn, nhưng hệ thống AI thì khác. Chúng phụ thuộc nhiều vào dữ liệu đào tạo, thường từ các nguồn độc quyền hoặc được bảo vệ bởi luật bảo mật, như thông tin chăm sóc sức khỏe.

Khi AI thúc đẩy các khám phá trong các lĩnh vực từ genomics đến mô hình hóa khí hậu, việc thiếu một sự đồng thuận mạnh mẽ về AI mã nguồn mở là gì và không phải là gì khiến chúng ta lo ngại. Trong tương lai, cộng đồng khoa học có thể thấy quyền truy cập của mình bị giới hạn vào các hệ thống doanh nghiệp đóng và các mô hình không thể xác minh.

Để các hệ thống AI phù hợp với phần mềm mã nguồn mở điển hình, chúng phải duy trì quyền tự do sử dụng, nghiên cứu, sửa đổi và chia sẻ các mô hình cơ bản của chúng. Mặc dù nhiều mô hình AI sử dụng nhãn 'mã nguồn mở' được tự do sử dụng và chia sẻ, nhưng không có khả năng truy cập dữ liệu đào tạo và mã nguồn hạn chế nghiêm trọng việc nghiên cứu và sửa đổi sâu hơn. Ví dụ, một phân tích của OSI phát hiện ra rằng một số mô hình ngôn ngữ lớn phổ biến, như Llama2 và Llama 3.x (phát triển bởi Meta), Grok (X), Phi-2 (Microsoft) và Mixtral (Mistral AI), không tương thích với các nguyên tắc mã nguồn mở. Ngược lại, các mô hình như OLMo, được phát triển bởi Viện AI Allen, một tổ chức phi lợi nhuận ở Seattle, Washington, và các dự án do cộng đồng lãnh đạo như CrystalCoder của LLM360 — một mô hình ngôn ngữ được điều chỉnh để thực hiện cả nhiệm vụ lập trình và ngôn ngữ tự nhiên — ủng hộ tầm nhìn về mã nguồn mở của OSI tốt hơn.

Lý do chính khiến một số công ty có thể đang sử dụng sai nhãn mã nguồn mở là để tránh các quy định được đề xuất theo Đạo luật AI 2024 của Liên minh Châu Âu, miễn trừ phần mềm miễn phí và mở khỏi sự giám sát nghiêm ngặt. Thực tiễn này — các công ty tuyên bố sự cởi mở trong khi hạn chế quyền truy cập vào các thành phần chính như thông tin về dữ liệu đào tạo — được gọi là openwashing.

Để chống lại xu hướng này, vào năm 2022, OSI đã khởi động một nỗ lực kéo dài nhiều năm để phát triển định nghĩa AI mã nguồn mở (OSAID), thu thập ý kiến từ người tạo nội dung, chuyên gia pháp lý, nhà hoạch định chính sách và người tiêu dùng bị ảnh hưởng bởi AI. Chúng tôi tổ chức các hội thảo trên khắp Châu Mỹ, Châu Âu, Châu Á và Châu Phi, dẫn đến OSAID 1.0 (xem go.nature.com/4hh49dv), tiêu chuẩn chính thức đầu tiên cho các hệ thống AI thực sự mở.

Một thách thức chính trong việc định nghĩa AI mã nguồn mở liên quan đến sự sẵn có của dữ liệu đào tạo. OSI đã giới thiệu khái niệm 'thông tin dữ liệu' — yêu cầu phát hành tất cả dữ liệu khi có thể theo pháp luật. Nhưng nếu chúng không thể được phân phối vì lý do pháp lý hoặc kỹ thuật, thông tin dữ liệu yêu cầu các nhà phát triển tiết lộ nguồn, đặc điểm và phương pháp chuẩn bị của các bộ dữ liệu đào tạo. Điều này duy trì tính minh bạch, cho phép các nhà nghiên cứu đánh giá chất lượng dữ liệu và, nếu cần, sao chép quá trình đào tạo với dữ liệu thay thế, gần như tương đương.

Để thúc đẩy cuộc thảo luận về dữ liệu cơ bản cung cấp cho các hệ thống AI, OSI và tổ chức phi lợi nhuận Open Future có trụ sở tại Amsterdam đã phát hành một báo cáo vào tháng 2 năm nay (xem go.nature.com/4j2mxs5) kêu gọi chuyển từ 'dữ liệu mở' sang mô hình dữ liệu-commons toàn diện hơn.

Các nhà nghiên cứu và những người dựa vào AI cho công việc thực nghiệm có thể bắt đầu bằng cách tham gia với OSAID 1.0, một tài liệu đang sống. Họ phải đánh giá nghiêm ngặt các mô hình AI có sẵn công khai và kiểm tra xem các nhà phát triển có đang phát hành tất cả các chi tiết, dữ liệu và công cụ cần thiết để xây dựng một hệ thống AI tương tự hay không.

Chính phủ và các cơ quan tài trợ có nhiều quyền lực để thúc đẩy cộng đồng khoa học hướng tới việc áp dụng các công cụ và kỹ thuật AI khuyến khích sự cởi mở thực sự và khả năng tái tạo. Ví dụ, Viện Y tế Quốc gia Hoa Kỳ yêu cầu người nhận tài trợ phát hành dữ liệu và phần mềm liên quan đến nghiên cứu theo giấy phép mở, và các quốc gia như Ý yêu cầu phần mềm mã nguồn mở cho quản lý công. Bằng cách áp dụng các tiêu chuẩn đúng đắn, các cơ quan công quyền có thể đảm bảo rằng việc triển khai AI trong khoa học chứng minh là hữu ích hơn là có hại.

‘Open source’ AI isn’t truly open — here’s how researchers can reclaim the term

Many firms are misusing the ‘open source’ label. The scientific community, which relies on transparency and replicability, must resist this trend.

Stefano Maffulli

Some 50 years ago this month, the Homebrew Computer Club — a do-it-yourself group of computer enthusiasts and hobbyists — began meeting in Menlo Park, California, fostering a culture of collaboration, knowledge exchange and the open sharing of software. These values, which helped to shape the open-source movement, are now being subverted by some artificial intelligence (AI) companies.

AI firms must play fair when they use academic data in training

Many foundational AI models are labelled as ‘open source’ because their architecture, including the neural networks’ structure and design, is made freely available. Yet, little information is disclosed about how the models were trained. As the executive director of the Open Source Initiative (OSI) based in Palo Alto, California, my priority since 2022 has been clarifying what the term actually means in the AI era.

Decades of free access to non-proprietary software — such as R Studio for statistical computing and OpenFOAM for fluid dynamics — has hastened scientific discovery. Open-source software protects research integrity by ensuring reproducibility. It also fosters global collaboration, allowing scientists to freely share data and solutions.

Conventional open-source licences are built around source code, which is easy to share with full transparency, but AI systems are different. They rely heavily on training data, often from proprietary sources or that are protected by privacy laws, such as health-care information.

As AI drives discoveries in fields ranging from genomics to climate modelling, the lack of a robust consensus on what is and isn’t open-source AI is worrying. In the future, the scientific community could find its access limited to closed corporate systems and unverifiable models.

For AI systems to align with typical open-source software, they must uphold the freedom to use, study, modify and share their underlying models. Although many AI models that use the ‘open source’ tag are free to use and share, the inability to access the training data and source code severely restricts deeper study and modification . For example, an analysis by OSI found that several popular large language models, such as Llama2 and Llama 3.x (developed by Meta), Grok (X), Phi-2 (Microsoft) and Mixtral (Mistral AI), are incompatible with open-source principles. By contrast, models such as OLMo, developed by the Allen Institute for AI, a non-profit organization in Seattle, Washington, and community-led projects such as LLM360’s CrystalCoder — a language model tailored to perform both programming and natural-language tasks — better uphold OSI’s vision of open source.

The main reason why some companies might be misusing the open-source label is to sidestep proposed regulations under the European Union’s 2024 AI Act, which exempts free and open software from strict scrutiny. This practice — companies claiming openness while restricting access to key components such as information about the training data — is called openwashing.

To combat this trend, in 2022, OSI launched a multi-year effort to develop an open-source AI definition (OSAID), gathering input from content creators, legal specialists, policymakers and consumers who are affected by AI. We held workshops across the Americas, Europe, Asia and Africa, leading to OSAID 1.0 (see go.nature.com/4hh49dv), the first formal standard for truly open AI systems.

How to harness AI’s potential in research — responsibly and ethically

A key challenge in defining open-source AI concerns the availability of training data. OSI introduced the concept of ‘data information’ — mandating the release of all data when legally possible. But if they cannot be distributed for legal or technical reasons, data information requires developers to disclose the sources, characteristics and preparation methods of training data sets. This preserves transparency, allowing researchers to assess data quality and, if needed, replicate the training process with alternative, nearly equivalent data.

To advance the discussion about the underlying data that feed AI systems, OSI and the Amsterdam-based non-profit organization Open Future released a white paper this February (see go.nature.com/4j2mxs5) calling for a transition from ‘open data’ to a more inclusive data-commons model.

Researchers and those who rely on AI for empirical work can make a start by engaging with OSAID 1.0, which is a living document. They must rigorously evaluate publicly available AI models and probe whether the developers are releasing all the necessary details, data and tools required to build an analogous AI system.

Governments and funding agencies have a lot of power to nudge scientific communities towards adopting AI tools and techniques that encourage genuine openness and replicability. For instance, the US National Institutes of Health requires grantees to release research-associated data and software under an open licence, and countries such as Italy mandate open-source software for public administration. By adopting the right standards, public authorities can ensure that the deployment of AI in science proves to be useful rather than harmful.

Không có file đính kèm.

Nguồn tham khảo

105

AI mở-nguồn mở 2025-03-26 05:33:36

DeepSeek tung ra V3-0324: Mô hình AI mới với siêu năng lực lập luận, nhưng liệu có an toàn?

Mô tả meta (bằng tiếng Việt):
DeepSeek nâng cấp mô hình AI V3 với khả năng lập luận và lập trình web được cải thiện. Phiên bản mới V3-0324 được phát hành dưới giấy phép MIT, nhưng vẫn còn những lo ngại về bảo mật.
Từ khóa meta (bằng tiếng Việt):
DeepSeek, V3-0324, AI, nâng cấp, lập luận, lập trình web, nguồn mở, giấy phép MIT, bảo mật
Tiêu đề SEO hấp dẫn và gây sốc (bằng tiếng Việt):
DeepSeek tung ra V3-0324: Mô hình AI mới với siêu năng lực lập luận, nhưng liệu có an toàn?

Tóm tắt chi tiết 250 từ bằng tiếng Việt theo dạng gạch đầu dòng, kèm dữ liệu và sự kiện:

DeepSeek vừa công bố phiên bản nâng cấp V3-0324 cho mô hình AI V3 của họ, được đặt tên theo ngày phát hành 24/3.
Mô hình mới được phát hành dưới giấy phép MIT, với trọng số công khai nhưng không công khai mã nguồn.
V3-0324 có những cải tiến chính:
Khả năng lập luận được nâng cao đáng kể
Kỹ năng lập trình web front-end mạnh mẽ hơn
Khả năng sử dụng công cụ thông minh hơn
DeepSeek khuyến nghị sử dụng V3 cho các tác vụ lập luận đơn giản, tắt tính năng "DeepThink".
Mô hình R1 vẫn là mô hình lập luận hàng đầu của DeepSeek, xếp hạng thứ 4 trên Chatbot Arena.
V3-0324 cải thiện hiệu suất trên nhiều tiêu chuẩn đánh giá, đặc biệt là AIME, đạt điểm cao hơn gần 20 điểm so với phiên bản trước.
Các cải tiến khác bao gồm phong cách viết "nâng cao" và chất lượng được cải thiện, đặc biệt là với nội dung dài.
Một số người dùng Reddit suy đoán rằng việc phát hành bản nâng cấp này có thể báo hiệu sự ra mắt sắp tới của R2.
Vẫn còn những lo ngại về các lỗ hổng bảo mật lớn và quyền riêng tư của người dùng với mô hình mới này.
Chưa rõ liệu DeepSeek đã thêm bất kỳ lớp bảo mật nào trong V3-0324 hay chưa.

📌 DeepSeek nâng cấp mô hình AI V3 thành V3-0324 với khả năng lập luận và lập trình web được cải thiện đáng kể. Mô hình mới đạt điểm cao hơn gần 20 điểm trong bài kiểm tra AIME so với phiên bản trước. Tuy nhiên, vẫn còn những lo ngại về bảo mật và quyền riêng tư của người dùng.

https://www.zdnet.com/article/deepseek-upgrades-v3-ai-model-under-mit-license/

Không có file đính kèm.

Nguồn tham khảo

163

AI xã hội AI mở-nguồn mở 2025-03-24 23:52:22

Mistral CEO Arthur Mensch dự đoán AI sẽ tác động đến GDP của mọi quốc gia ở mức hai con số

Arthur Mensch, CEO của startup AI Pháp Mistral, khẳng định AI sẽ tác động đến GDP của mọi quốc gia ở mức hai con số trong những năm tới.
Mensch cảnh báo các quốc gia không thiết lập hệ thống AI riêng sẽ đối mặt với nguy cơ dòng tiền chảy sang các nước khác.
Ông so sánh AI với sự ra đời của điện: "100 năm trước, nếu bạn không xây dựng nhà máy điện, bạn đang chuẩn bị để mua điện từ hàng xóm, điều này cuối cùng không tốt vì tạo ra sự phụ thuộc."
Mensch nhấn mạnh AI khác với điện ở chỗ nó là công nghệ sản xuất nội dung có thể truyền tải giá trị và văn hóa của một quốc gia.
Trong podcast A16z, Mensch và CEO Nvidia Jensen Huang đồng ý rằng mỗi quốc gia cần tìm chiến lược AI quốc gia và xây dựng năng lực AI riêng.
Mistral được thành lập năm 2023 bởi các nhà nghiên cứu từ DeepMind và Meta, hiện đang phát triển mô hình ngôn ngữ lớn và chatbot AI tạo sinh "Le Chat".
Công ty cạnh tranh trực tiếp với OpenAI, Anthropic và DeepSeek, tuyên bố mô hình của họ chạy nhanh hơn nhiều so với đối thủ.
Mistral là một trong những startup giá trị nhất châu Âu, được định giá 6,2 tỷ USD trong vòng gọi vốn tháng 6 với sự tham gia của General Capital, Lightspeed và Andreessen Horowitz.
Mensch dự định đưa công ty lên sàn chứng khoán thay vì bán lại.
CEO Mistral ủng hộ mạnh mẽ việc giữ các mô hình ngôn ngữ lớn nguồn mở, cho rằng điều này thúc đẩy sự phát triển công nghệ nhanh chóng và dân chủ.
Ông chỉ ra rằng từ 2010-2020, tiến bộ công nghệ tăng tốc vì các phòng thí nghiệm xây dựng dựa trên nhau, điều đã biến mất với các mô hình ngôn ngữ lớn đầu tiên từ OpenAI.

📌 Mistral, startup AI Pháp trị giá 6,2 tỷ USD, dự báo AI sẽ tác động GDP hai con số tại mọi quốc gia. CEO Arthur Mensch khuyến nghị các nước xây dựng cơ sở hạ tầng AI riêng để tránh phụ thuộc và ủng hộ mạnh mẽ mô hình nguồn mở để thúc đẩy đổi mới nhanh chóng.

https://www.businessinsider.com/ai-impact-gdp-country-double-digits-mistral-ceo-arthur-mensch-2025-3

Không có file đính kèm.

Nguồn tham khảo

121

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2025-03-19 08:02:04

Tencent tung 5 mô hình AI nguồn mở biến văn bản thành hình ảnh 3D

Tencent Holdings đã phát hành 5 dịch vụ AI mới có khả năng chuyển đổi văn bản hoặc hình ảnh thành hình ảnh 3D và đồ họa, dựa trên mô hình Hunyuan3D-2.0 của công ty.
Tencent có kế hoạch mở nguồn tất cả các dịch vụ này cho người dùng, nhằm mục đích hỗ trợ phiên bản nâng cấp của động cơ 3D độc quyền dành cho game và các nội dung khác.
Việc phát triển các mô hình AI đã tăng tốc mạnh mẽ kể từ khi DeepSeek xuất hiện, với các công ty công nghệ lớn như OpenAI, Alibaba và Baidu liên tục giới thiệu các tiến bộ mới với tốc độ đáng kinh ngạc.
DeepSeek, một startup chỉ mới 2 năm tuổi, đã gây sốc khi giới thiệu mô hình có khả năng sánh ngang với những mô hình tốt nhất từ OpenAI và Meta, nhưng với chi phí được cho là thấp hơn nhiều lần.
Sự xuất hiện của DeepSeek đã thúc đẩy ngành công nghệ Trung Quốc, vốn đã nhiều năm không theo kịp Mỹ trong lĩnh vực AI.
Baidu vừa nâng cấp mô hình nền tảng Ernie lên phiên bản 4.5 và giới thiệu X1, được thiết kế để cạnh tranh với R1 của DeepSeek.
Theo Bloomberg Intelligence, những mô hình AI mới nhất của Baidu có thể giúp thu hẹp khoảng cách phát triển với DeepSeek, Alibaba và Tencent, nhưng không đem lại lợi nhuận đáng kể do cạnh tranh khốc liệt trong lĩnh vực AI Trung Quốc.
Tencent cũng đang cố gắng bắt kịp đối thủ. Tháng trước, công ty đã ra mắt Hunyuan Turbo S, được thiết kế để phản hồi nhanh nhất có thể, phân biệt với cách tiếp cận "lập luận sâu" của chatbot DeepSeek.
Chi phí triển khai đã giảm mạnh, theo thông báo của Tencent trên kênh WeChat chính thức.
Các nền tảng được Tencent giới thiệu phù hợp với hoạt động phân phối và xuất bản rộng lớn hơn của công ty. Các studio game đang tìm cách sử dụng AI để tăng tốc quá trình từ thiết kế trong game đến tiền sản xuất.
Ngoài phát triển nội bộ, Tencent cũng đang tích hợp mô hình R1 của DeepSeek vào nhiều sản phẩm của mình, từ tìm kiếm WeChat đến chatbot AI Yuanbao.
Yuanbao thậm chí đã vượt qua DeepSeek để trở thành ứng dụng iPhone được tải xuống nhiều nhất tại Trung Quốc trong tháng này.

📌 Tencent đang đẩy mạnh cuộc đua AI với việc phát hành 5 dịch vụ AI nguồn mở biến văn bản thành hình ảnh 3D dựa trên mô hình Hunyuan3D-2.0, phản ứng trước sự xuất hiện của DeepSeek - startup đã tạo ra mô hình sánh ngang OpenAI nhưng chi phí thấp hơn nhiều.

https://www.bloomberg.com/news/articles/2025-03-18/tencent-touts-open-source-ai-models-to-turn-text-into-3d-visuals

Không có file đính kèm.

Nguồn tham khảo

315

AI mở-nguồn mở AI nghiên cứu 2025-03-19 03:01:43

DAPO của ByteDance: Hệ thống học tăng cường nguồn mở dành cho LLM giúp cải thiện khả năng lập luận toán học

Các nhà nghiên cứu từ ByteDance, đại học Thanh Hoa và đại học Hồng Kông đã giới thiệu DAPO (Dynamic Sampling Policy Optimization) - hệ thống học tăng cường nguồn mở quy mô lớn nhằm nâng cao khả năng lập luận của mô hình ngôn ngữ lớn.
Học tăng cường (RL) đã trở thành phương pháp then chốt để cải thiện khả năng lập luận của LLM cho các tác vụ phức tạp, nhưng cộng đồng nghiên cứu gặp khó khăn trong việc tái tạo kỹ thuật tiên tiến do các công ty lớn không công bố đầy đủ chi tiết đào tạo.
DAPO giải quyết vấn đề này bằng cách công khai chia sẻ tất cả chi tiết thuật toán, quy trình đào tạo và bộ dữ liệu, được xây dựng trên nền tảng verl, bao gồm mã đào tạo và bộ dữ liệu DAPO-Math-17K được thiết kế đặc biệt cho các tác vụ lập luận toán học.
Hệ thống giới thiệu bốn cải tiến kỹ thuật: "Clip-Higher" ngăn chặn sự sụp đổ entropy và khuyến khích đa dạng kết quả, "Dynamic Sampling" lọc mẫu dựa trên mức độ hữu ích, "Token-level Policy Gradient Loss" tập trung vào điều chỉnh cấp token thay vì toàn bộ mẫu, và "Overlong Reward Shaping" phạt nhẹ các phản hồi quá dài.
Trong thử nghiệm thực tế, DAPO đã đạt điểm số 50 trên bộ dữ liệu AIME 2024 khi sử dụng mô hình Qwen2.5-32B, vượt trội hơn phương pháp DeepSeek-R1-Zero-Qwen-32B (47 điểm) với chỉ khoảng một nửa số bước đào tạo.
Phân tích hệ thống cho thấy sự cải thiện từng bước của các kỹ thuật được giới thiệu, từ mức cơ sở 30 điểm (chỉ sử dụng GRPO) lên tới 50 điểm với phương pháp DAPO đầy đủ.
Ngoài kết quả định lượng, quá trình đào tạo DAPO còn cung cấp hiểu biết sâu sắc về sự phát triển của các mẫu lập luận. Ban đầu, các mô hình thể hiện ít hành vi phản ánh, thường tiến triển tuyến tính qua các tác vụ mà không xem xét lại các bước trước đó.
Tuy nhiên, sau thời gian đào tạo, các mô hình dần thể hiện nhiều hành vi phản ánh hơn, chứng minh khả năng tự đánh giá lặp lại, cho thấy khả năng của học tăng cường không chỉ nâng cao các cách lập luận hiện có mà còn phát triển chiến lược nhận thức mới.
Việc công khai mã nguồn DAPO đại diện cho một đóng góp quan trọng cho cộng đồng học tăng cường, loại bỏ rào cản từ các phương pháp không thể tiếp cận trước đây.
Nỗ lực hợp tác giữa ByteDance, đại học Thanh Hoa và đại học Hồng Kông thể hiện tiềm năng của nghiên cứu minh bạch và hợp tác để thúc đẩy hiểu biết chung và khả năng thực tiễn của hệ thống học tăng cường quy mô lớn.

📌 DAPO - hệ thống học tăng cường nguồn mở do ByteDance phát triển đã đạt 50 điểm trên bộ đánh giá AIME 2024 với mô hình Qwen2.5-32B, vượt trội hơn các phương pháp trước đó nhờ bốn cải tiến kỹ thuật: Clip-Higher, Dynamic Sampling, Token-level Policy Gradient Loss và Overlong Reward Shaping.

https://www.marktechpost.com/2025/03/17/bytedance-research-releases-dapo-a-fully-open-sourced-llm-reinforcement-learning-system-at-scale/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở STI 2025-03-19 02:49:20

DeepSeek đã thiết kế đối thủ siêu hiệu quả đấu với ChatGPT như thế nào?

DeepSeek, công ty khởi nghiệp Trung Quốc, đã xếp hạng thứ 12 trong danh sách 50 công ty đổi mới nhất thế giới năm 2025.
Trong tháng 12/2024 và tháng 1/2025, DeepSeek đã tung ra hai mô hình AI tiên tiến yêu cầu ít sức mạnh tính toán và vốn đầu tư hơn nhiều so với các công ty AI phương Tây, làm lung lay niềm tin rằng Hoa Kỳ dẫn đầu thế giới về AI.
Các mô hình tạo sinh thường tiêu thụ nhiều bộ nhớ và sức mạnh tính toán khi xử lý vấn đề vì phải "ghi nhớ" nhiều thông tin ngữ cảnh. DeepSeek đã phát minh cách nén một phần dữ liệu này, giảm khối lượng công việc cho GPU trong cả quá trình đào tạo mô hình và tạo sinh nội dung.
Với lệnh cấm từ Hoa Kỳ ngăn DeepSeek tiếp cận GPU Nvidia mạnh nhất, công ty đã đổi mới các phương pháp kỹ thuật đã biết để đạt được hiệu quả tiết kiệm sức mạnh GPU.
Nghiên cứu của DeepSeek cải tiến kiến trúc "mixture-of-experts" (hỗn hợp chuyên gia) chia mô hình ngôn ngữ lớn thành các phân đoạn chứa kiến thức chuyên biệt.
Công ty cũng phát minh cách hiệu quả hơn để dạy mô hình nhỏ hơn của họ, DeepSeek-R1, cách lập luận. Các nhà nghiên cứu cung cấp một lượng dữ liệu học tăng cường tương đối nhỏ (câu hỏi và câu trả lời được tạo bởi mô hình lớn hơn DeepSeek-V3, cùng với "quá trình suy nghĩ") cho R1.
Nhóm nghiên cứu sau đó đưa ra cho mô hình một loạt vấn đề để giải quyết và thưởng cho nó bằng mã đặc biệt cho các câu trả lời tốt. Cuối cùng, R1 bắt đầu "suy nghĩ" về các con đường hứa hẹn nhất dẫn đến câu trả lời thuận lợi và phần thưởng.
Thay vì giữ bí mật những đột phá trong nghiên cứu, DeepSeek đã chia sẻ phương pháp của mình thông qua các bài báo nghiên cứu và cung cấp mã nguồn mở cho các mô hình để người khác sử dụng và điều chỉnh.
Thông điệp của công ty: các mô hình ngôn ngữ lớn tiên tiến đang trở thành bí mật công khai, thúc đẩy sự phát triển của cộng đồng AI toàn cầu.
Mặc dù đối mặt với sự cạnh tranh gay gắt từ các phòng lab AI khác, cách tiếp cận chia sẻ kiến thức của DeepSeek đã tạo ra tác động đáng kể đến cộng đồng AI.

📌 DeepSeek đã chứng minh rằng ngay cả với hạn chế về tiếp cận GPU mạnh nhất, vẫn có thể tạo ra mô hình AI hiệu quả bằng đổi mới kỹ thuật. Thành công của công ty Trung Quốc này thách thức vị thế dẫn đầu của Mỹ trong lĩnh vực AI và thúc đẩy phong trào chia sẻ kiến thức nguồn mở.

https://www.fastcompany.com/91270727/deepseek-most-innovative-companies-2025

Danh sách 50 công ty đổi mới sáng tạo nhất thế giới năm 2025:

https://www.fastcompany.com/most-innovative-companies/list

Không có file đính kèm.

Nguồn tham khảo

189

AI mở-nguồn mở 2025-03-19 02:44:19

Google Gemma 3: Model AI nguồn mở đột phá với khả năng xử lý đa phương thức và đánh bại nhiều đối thủ lớn hơn

Google vừa ra mắt Gemma 3, một dòng model AI đa phương thức nguồn mở với các phiên bản từ 1 tỷ đến 27 tỷ tham số, phục vụ nhiều ứng dụng như viết sáng tạo, giao tiếp đa ngôn ngữ và xử lý đa phương thức.
Gemma 3 có khả năng xử lý văn bản, hình ảnh và video trong hơn 140 ngôn ngữ, mang đến giải pháp phù hợp cho nhiều nhu cầu khác nhau, từ các ứng dụng nhẹ đến xử lý đa phương thức phức tạp.
Model chủ lực với 27 tỷ tham số đạt điểm ELO 1339 trên bảng xếp hạng Chatbot Arena, vượt qua các model tiền nhiệm như Gemini 1.5 Pro và Flash, thể hiện hiệu suất mạnh mẽ trong viết sáng tạo và các tác vụ lập luận.
Mặc dù có nhiều ưu điểm, Gemma 3 vẫn còn hạn chế trong các tác vụ lập trình, đặc biệt với các cấu hình nhỏ hơn, cho thấy vẫn cần các công cụ chuyên biệt cho lĩnh vực này.
Kỹ thuật huấn luyện tiên tiến bao gồm tiền huấn luyện trên 14 nghìn tỷ token, bộ mã hóa đa ngôn ngữ mới và các cải tiến học tăng cường, nâng cao độ chính xác và khả năng nhận biết ngữ cảnh.
Người dùng có thể dùng Gemma 3 ở độ chính xác đầy đủ trực tiếp trên trình duyệt thông qua Google AI Studio, không cần cài đặt phức tạp.
Model được phát hành dưới giấy phép linh hoạt, phản ánh cam kết của Google đối với AI nguồn mở, với các phiên bản lượng tử hóa từ 32-bit đến 4-bit để tương thích với nhiều phần cứng khác nhau.
Gemma 3 có thể truy cập qua Hugging Face, Ollama hoặc Kaggle với các phiên bản lượng tử hóa phù hợp với nhiều cấu hình phần cứng, từ GPU tiêu dùng đến hệ thống cao cấp.
Các ứng dụng chính của Gemma 3 bao gồm viết sáng tạo, xử lý đa phương thức, và tiềm năng tích hợp vào hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài đa phương thức.
Google dự kiến sẽ tiếp tục cập nhật và phát triển Gemma 3 với sự đóng góp từ cộng đồng phát triển, đảm bảo model sẽ tiếp tục phát triển và cải thiện theo thời gian.

📌 Google Gemma 3 là dòng model AI nguồn mở đa phương thức từ 1-27 tỷ tham số, hỗ trợ 140 ngôn ngữ và vượt trội trong nhiều tác vụ. Model được huấn luyện trên 14 nghìn tỷ token nhưng vẫn hạn chế trong lập trình, phản ánh cam kết của Google với AI nguồn mở.

https://www.geeky-gadgets.com/google-gemma-3-ai-model-overview/

Không có file đính kèm.

Nguồn tham khảo

AI market AI mở-nguồn mở 2025-03-18 06:37:40

Baidu tung ra Ernie X1 và Ernie 4.5, tuyên bố hiệu suất ngang bằng với OpenAI và DeepSeek nhưng giá rẻ hơn nhiều

Baidu - "Google của Trung Quốc" vừa phát hành hai mô hình AI mới: Ernie X1 và Ernie 4.5 vào ngày 16/3/2025.
Ernie X1 được công bố là mô hình suy luận có hiệu suất ngang bằng với DeepSeek R1 nhưng chỉ với một nửa giá thành.
Ernie 4.5, một mô hình nền tảng đa phương thức, được tuyên bố vượt trội hơn GPT-4.5 trong nhiều tiêu chuẩn đánh giá nhưng giá chỉ bằng 1% của GPT-4.5.
Baidu cũng thông báo sẽ mở chatbot Ernie Bot miễn phí cho công chúng từ ngày 1/4, sớm hơn so với kế hoạch ban đầu.
Công ty sẽ tích hợp dần Ernie 4.5 và X1 vào hệ sinh thái sản phẩm của mình, bao gồm Baidu Search - công cụ tìm kiếm chiếm ưu thế tại Trung Quốc.
Động thái này của Baidu diễn ra trong bối cảnh Thung lũng Silicon đang phải đối mặt với vấn đề chi phí của các mô hình AI, phần lớn do sự ra đời của các mô hình từ DeepSeek - một startup Trung Quốc được ra mắt bởi quỹ đầu tư mạo hiểm High Flyer.
DeepSeek đã phát hành mô hình ngôn ngữ lớn V3 vào tháng 12/2024 và mô hình suy luận R1 vào tháng 1/2025, được đánh giá tốt bằng hoặc tốt hơn các mô hình tương đương từ OpenAI nhưng giá rẻ hơn 20-40 lần.
Giá token đầu vào của Ernie 4.5 chỉ từ 0,004 nhân dân tệ/nghìn token và 0,016 nhân dân tệ/nghìn token đầu ra, rẻ hơn nhiều so với GPT-4.5, mặc dù DeepSeek V3 vẫn là rẻ nhất.
Với mô hình suy luận, Ernie X1 là lựa chọn rẻ nhất, với giá chỉ dưới 2% so với o1 của OpenAI.
Nhiều người đã thử nghiệm Ernie đều ấn tượng với hiệu suất của nó, như Alvin Foo, đối tác của Zero2Launch đã chia sẻ trên X.
CEO Baidu Robin Li nhấn mạnh tầm quan trọng của mã nguồn mở: "Một điều chúng tôi học được từ DeepSeek là việc mở nguồn các mô hình tốt nhất có thể giúp ích rất nhiều cho việc áp dụng."
Trung Quốc, với mục tiêu trở thành nhà lãnh đạo toàn cầu trong lĩnh vực AI vào năm 2030, gần đây cũng gây chú ý với việc phát hành AI agent Manus và mô hình mã nguồn mở QwQ-32B của Alibaba.

📌 Baidu đang gây chấn động thị trường AI với Ernie X1 và Ernie 4.5 - hai mô hình mã nguồn mở có hiệu suất cạnh tranh nhưng giá chỉ bằng 1-2% so với OpenAI. Đây là minh chứng cho chiến lược mã nguồn mở và định vị Trung Quốc như một đối thủ đáng gờm trong cuộc đua AI toàn cầu.

https://www.businessinsider.com/baidu-ernie-x1-ai-reasoning-model-china-competition-openai-2025-3

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI robotics-auto-agents 2025-03-17 05:55:29

OpenManus: nền tảng nguồn mở miễn phí - giải pháp thay thế cho Manus AI

OpenManus là nền tảng nguồn mở miễn phí, được phát triển như giải pháp thay thế cho Manus AI - công cụ độc quyền chuyên tự động hóa các tác vụ phức tạp.
Nền tảng này ra đời để giải quyết các rào cản tiếp cận của Manus AI như danh sách chờ và tính chất mã nguồn đóng, mang công nghệ AI tiên tiến đến với nhiều người dùng hơn.
OpenManus hỗ trợ nhiều tác vụ đa dạng như kiểm toán SEO, phát triển ứng dụng và phân tích dữ liệu, được vận hành bởi học tăng cường và các mô hình ngôn ngữ lớn.
Khả năng của nền tảng bao gồm tạo bảng điều khiển hiệu suất bán hàng và tự động hóa phát triển ứng dụng quản lý tác vụ đơn giản.
Việc cài đặt OpenManus đòi hỏi kiến thức về Python và quản lý các phụ thuộc, bao gồm các bước như tạo môi trường Conda, cài đặt thư viện cần thiết và cấu hình API keys.
Mặc dù phức tạp trong cài đặt, nền tảng này mang lại sự linh hoạt cao, cho phép người dùng tùy chỉnh hệ thống theo nhu cầu cụ thể.
OpenManus đối mặt với một số thách thức: hiệu suất chậm hơn so với Manus, thiếu giao diện người dùng đồ họa (GUI) và giới hạn tốc độ trên một số mô hình.
Những hạn chế này giảm sự hấp dẫn đối với người dùng không có chuyên môn kỹ thuật và gây khó khăn cho các dự án quy mô lớn.
Là dự án nguồn mở, OpenManus phát triển nhờ đóng góp của cộng đồng, với kế hoạch cải thiện hiệu suất, giới thiệu tính năng mới và đơn giản hóa trải nghiệm người dùng.
Điểm mạnh lớn nhất của OpenManus là miễn phí, loại bỏ rào cản tài chính liên quan đến các agent AI độc quyền, đặc biệt hữu ích cho doanh nghiệp nhỏ, startup và các nhà phát triển độc lập.

📌 OpenManus là giải pháp nguồn mở miễn phí thay thế cho Manus AI, hỗ trợ tự động hóa nhiều tác vụ như phân tích SEO, phát triển ứng dụng và phân tích dữ liệu. Với ưu điểm về chi phí và tính linh hoạt, nền tảng đang phát triển để khắc phục các hạn chế về hiệu suất và giao diện người dùng.

https://www.geeky-gadgets.com/manus-ai-alternative-open-source/

Không có file đính kèm.

Nguồn tham khảo

185

AI mở-nguồn mở AI doanh nghiệp 2025-03-16 08:00:27

Các công ty phương Tây đang thử nghiệm mô hình AI DeepSeek của Trung Quốc

Sau 2 tháng ra mắt, DeepSeek R1 vẫn giữ vị trí là mô hình AI nguồn mở tốt nhất trên thế giới, đã gây ấn tượng với các chuyên gia và làm giảm giá cổ phiếu công nghệ Mỹ vào tháng 1/2025.
Giá trị nổi bật của mô hình nguồn mở DeepSeek là người dùng có thể sử dụng mà không cần xin phép hoặc trả phí, đồng thời có thể tải về và chạy trên phần cứng riêng để đảm bảo hiệu suất hoặc bảo mật.
Một số công ty phương Tây đã bắt đầu áp dụng mô hình DeepSeek, hiện được hỗ trợ bởi các nhà cung cấp đám mây như Amazon và Microsoft. Gloo - nền tảng nhắn tin cho nhà thờ, và Latenode - nền tảng tự động hóa, đã sử dụng R1.
Meta, đối thủ nguồn mở chính của DeepSeek, đã cử các nhà nghiên cứu phân tích R1 để áp dụng bài học vào dòng mô hình Llama của họ.
Các ngân hàng châu Âu đang trở thành trung tâm thử nghiệm. Natwest, HSBC và BBVA đều đang thử nghiệm xây dựng dịch vụ trên nền tảng R1, bởi quy định bảo mật nghiêm ngặt hạn chế việc sử dụng dịch vụ AI đám mây.
Nhiều doanh nghiệp phương Tây vẫn thận trọng, chủ yếu lo ngại về vấn đề an ninh. Một giám đốc Mỹ cho biết chỉ chạy mô hình DeepSeek trên máy tính "cách ly không khí" không kết nối với hệ thống của công ty.
Nhà Trắng đang xem xét cấm ứng dụng chatbot DeepSeek trên thiết bị chính phủ vì lý do an ninh quốc gia, và có thể ngăn các nhà cung cấp đám mây Mỹ cung cấp mô hình DeepSeek.
Cuối tháng 2/2025, DeepSeek đã công bố mã nguồn để tạo ra mô hình của mình miễn phí, giúp các công ty khác dễ dàng tận dụng công nghệ này. Hàng nghìn tổ chức đã tải xuống trong tuần đầu tiên.
Perplexity, công cụ tìm kiếm AI của Mỹ, đã lấy R1 và đào tạo lại để đảm bảo cung cấp "thông tin khách quan, chính xác và thực tế", đặt tên là "R1 1776" với tinh thần yêu nước.
Mô hình DeepSeek vẫn tồn tại vấn đề kiểm duyệt - khi hỏi chatbot của DeepSeek về Quảng trường Thiên An Môn, nó sẽ muốn "nói về điều khác".

📌 DeepSeek R1 vẫn dẫn đầu thị trường AI nguồn mở toàn cầu sau 2 tháng ra mắt. Dù nhiều công ty phương Tây đã thử nghiệm, vẫn tồn tại ba rào cản: lo ngại an ninh từ chính phủ Mỹ, sự phụ thuộc vào công nghệ Trung Quốc và vấn đề kiểm duyệt trong mô hình.

https://www.economist.com/business/2025/03/13/western-companies-are-experimenting-with-deepseek

Các công ty phương Tây đang thử nghiệm với DeepSeek
Nhưng lo ngại về an ninh, kiểm duyệt và sự phụ thuộc vào Trung Quốc vẫn còn tồn tại

Minh họa: Rose Wong
13 tháng 3, 2025

Hai tháng sau khi ra mắt, DeepSeek R1 — mô hình đã khiến các chuyên gia kinh ngạc và khiến cổ phiếu công nghệ Mỹ sụt giảm vào tháng 1 — vẫn chưa có đối thủ. Mô hình trí tuệ nhân tạo (AI) của công ty Trung Quốc này vẫn là sản phẩm mã nguồn mở tốt nhất được phát hành bởi bất kỳ phòng thí nghiệm nào, ở bất kỳ nơi nào trên thế giới. Tại quê nhà, DeepSeek đã lan truyền với tốc độ chóng mặt. Nó cũng đang dần được đón nhận ở các nơi khác trên thế giới.

Giá trị mà các mô hình mã nguồn mở của DeepSeek mang lại rất khó để bỏ qua. Các lập trình viên có thể sử dụng chúng mà không cần xin phép hoặc trả phí, và có thể tải về để chạy trên phần cứng của công ty nếu muốn cải thiện hiệu năng hoặc đảm bảo quyền riêng tư. Điều đó đặt DeepSeek vào một nhóm khác so với các phòng thí nghiệm khép kín nhưng có năng lực kỹ thuật ấn tượng hơn, như OpenAI.

Một số công ty phương Tây đã bắt đầu áp dụng các mô hình của DeepSeek, hiện đã được các nhà cung cấp dịch vụ đám mây như Amazon và Microsoft hỗ trợ. Gloo, một nền tảng nhắn tin dành cho các nhà thờ được thành lập bởi Pat Gelsinger — người cho đến tháng 12 vẫn là CEO của Intel — đã sử dụng mô hình này làm nền tảng cho chatbot của mình. Latenode, một nền tảng tự động hóa, đã bắt đầu cung cấp R1 ngay sau khi mô hình này được ra mắt, lưu ý rằng khả năng hỗ trợ các ngôn ngữ ngoài tiếng Anh của R1 là điểm hấp dẫn đối với các nhà tiếp thị nội dung đang tìm cách dịch tài liệu.

Meta, đối thủ mã nguồn mở chính của DeepSeek, đã cử các nhà nghiên cứu phân tích R1 để rút ra các bài học và áp dụng vào dòng mô hình Llama của công ty.

Điều đáng ngạc nhiên là các ngân hàng châu Âu đã nổi lên như một điểm nóng trong các thử nghiệm về DeepSeek. Các quy tắc bảo mật nghiêm ngặt hạn chế mức độ mà ngành tài chính có thể phụ thuộc vào các dịch vụ AI trên nền tảng đám mây. Điều này khiến các mô hình mã nguồn mở được lưu trữ nội bộ trở thành một lựa chọn thay thế hấp dẫn. Theo The Information (một trang tin tức), NatWest và HSBC — hai ngân hàng của Anh — đều đang thử nghiệm xây dựng các dịch vụ dựa trên R1, cùng với BBVA của Tây Ban Nha.

Tuy nhiên, nhiều doanh nghiệp phương Tây vẫn tỏ ra thận trọng. Vấn đề bảo mật thường là mối quan tâm chính, và đây có thể là mối lo ngại lớn hơn đối với người Mỹ so với người châu Âu. Một giám đốc điều hành người Mỹ cho biết ông sẽ chỉ chạy các mô hình của DeepSeek trên một máy tính "air-gapped" (tức là không được kết nối với bất kỳ hệ thống nào của công ty) — mặc dù để DeepSeek có thể cài cắm các mã độc vào mô hình của mình sẽ cần đến một đột phá lớn trong khoa học máy tính.

Hơn nữa, Nhà Trắng đang xem xét cấm ứng dụng chatbot của DeepSeek trên các thiết bị của chính phủ với lý do an ninh quốc gia, và có thể sẽ đi xa hơn, bao gồm cả khả năng cấm các nhà cung cấp dịch vụ đám mây của Mỹ cung cấp các mô hình của DeepSeek. Động thái này có thể gây ra tác động tiêu cực lớn đối với việc tiếp nhận công nghệ này.

Ngược lại, người châu Âu có thể sẽ không có nhiều sự lựa chọn. Không có một công ty AI bản địa nào của châu Âu có thể sánh ngang với DeepSeek. Cuộc chiến thương mại của Donald Trump và mối quan hệ thân thiết của ông với Vladimir Putin có nghĩa là một số công ty và nhà hoạch định chính sách châu Âu có thể muốn giảm sự phụ thuộc vào công nghệ của Mỹ.

Vào cuối tháng 2, DeepSeek đã khiến việc khai thác công nghệ của mình trở nên dễ dàng hơn bằng cách cung cấp miễn phí mã nguồn mà công ty đã sử dụng để tạo ra các mô hình của mình. Trước đây, DeepSeek chỉ chia sẻ các chi tiết về quy trình huấn luyện hệ thống của mình — điều này đã tỏ ra hiệu quả hơn nhiều so với các phương pháp mà các công ty phương Tây áp dụng. Nhưng giờ đây, các công ty đã có quyền truy cập vào chính xác mã nguồn mà công ty tiên phong của Trung Quốc đã sử dụng để phát triển các mô hình của mình. Chỉ trong tuần qua, đã có hàng nghìn lượt tải xuống.

Việc sử dụng phương pháp của DeepSeek có thể là một lựa chọn tốt cho các công ty đang tìm cách hưởng lợi từ những đột phá của DeepSeek mà không phải đối mặt với vấn đề kiểm duyệt của Trung Quốc — đây là rào cản cuối cùng đối với việc áp dụng rộng rãi. Ví dụ, nếu hỏi chatbot của DeepSeek về sự kiện Thiên An Môn, nó sẽ trả lời rằng muốn “nói về một chủ đề khác.”

Một số công ty đã có cách tiếp cận trực tiếp hơn để giải quyết vấn đề đó. Perplexity, một công cụ tìm kiếm AI của Mỹ, đã lấy R1 và huấn luyện lại nó để đảm bảo rằng nó tạo ra thông tin "không thiên vị, chính xác và có căn cứ." Công ty đã đặt tên cho phiên bản của mình với niềm tự hào dân tộc là “R1 1776.” ■

Western companies are experimenting with DeepSeek
But concerns over security, censorship and dependence on China remain
An illustration of a a whale shape filled with electrical parts being taken apart by people around it.
Illustration: Rose Wong
Mar 13th 2025

Two months on from its release, DeepSeek’s R1, which wowed experts and caused American tech stocks to crash in January, is still unbeaten. The Chinese firm’s artificial-intelligence (AI) model remains the best open-source offering released by any lab, anywhere in the world. Back home it has spread like wildfire. It is catching on in the rest of the world as well.
The value offered by DeepSeek’s open-source models is hard to ignore. They can be used by coders without asking permission or paying a fee, and can be downloaded and run on a company’s own hardware if it wishes to do so for performance or privacy reasons. That puts DeepSeek in a different category to more technically impressive but closed labs like OpenAI.
Some companies in the West have already begun to adopt DeepSeek’s models, which are now supported by cloud providers including Amazon and Microsoft. Gloo, a messaging platform for churches founded by Pat Gelsinger, who until December was the chief executive of Intel, has used the model as the basis for its chatbot. Latenode, an automation platform, began offering R1 shortly after the model was launched, noting that its support for non-English languages was appealing to content marketers looking to translate material. Meta, DeepSeek’s main open-source rival, has assigned researchers to pull apart R1 and apply the lessons to its own family of Llama models.
Perhaps surprisingly, European banks have emerged as a hotbed of experimentation. Strict confidentiality rules limit how much the financial sector can rely on cloud-based AI services. That makes open-source models hosted internally an attractive alternative. Natwest and HSBC, two British lenders, are both experimenting with building their services on top of R1, as is Spain’s BBVA, according to the Information, a news site.
Many Western businesses, though, remain cautious. Security is often the concern, and one that may preoccupy Americans more than Europeans. One American boss says he would only run DeepSeek’s models on an “air-gapped” computer with no connection to his firm’s systems—even though it would have taken a breakthrough in computer science for DeepSeek to have smuggled malicious capabilities into the model itself.
Moreover, the White House is considering banning DeepSeek’s chatbot app on government devices, on national-security grounds, and could decide to go further, including possibly preventing American cloud providers from offering DeepSeek’s models at all. That would have a chilling effect on adoption.
Europeans, by comparison, may find themselves with little choice. None of the old continent’s homegrown ai champions are of the calibre of DeepSeek. Donald Trump’s trade war and his overtures towards Vladimir Putin mean that some European companies and policymakers may want to lower their reliance on American tech.
In late February DeepSeek made it even easier for others to harness its technology by making the code it used to create its models available free of charge. Previously DeepSeek had only shared details of the process it used to train its systems, which was far more efficient than the approaches taken by Western firms. But now companies have access to the exact code used by the Chinese pioneer to develop its models. Thousands have downloaded it in the past week alone.
Using DeepSeek’s methodology may be a good option for companies looking to benefit from its breakthroughs while avoiding the Chinese censorship that is embedded in its models—a final hurdle to adoption. Ask DeepSeek’s chatbot about Tiananmen Square, for example, and it will want to “talk about something else”. Others have taken a more direct approach to tackling that problem. Perplexity, an American AI search engine, has taken R1 and retrained it to ensure it produces “unbiased, accurate, and factual information”. It has dubbed its creation, with patriotic fervour, “R1 1776”. ■

Không có file đính kèm.

Nguồn tham khảo

148

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2025-03-15 18:13:57

Trung Quốc siết chặt kiểm soát DeepSeek: Nhân viên bị giữ hộ chiếu, nhà đầu tư bị sàng lọc

Trung Quốc đang theo dõi chặt chẽ startup AI DeepSeek, kỳ vọng công ty này sẽ trở thành một câu chuyện thành công về công nghệ cho đất nước.
Sau khi DeepSeek nổi tiếng đột ngột vào tháng 1 với việc phát hành mô hình "suy luận" nguồn mở R1, công ty hiện đang hoạt động dưới những hạn chế mới chặt chẽ hơn do Chính phủ áp đặt.
Theo The Information, một số nhân viên của công ty bị hạn chế đi lại tự do ra nước ngoài, và Chính phủ Trung Quốc hiện đang đóng vai trò trong việc sàng lọc các nhà đầu tư tiềm năng.
DeepSeek thực thi các hạn chế đi lại bằng cách yêu cầu công ty mẹ, quỹ đầu tư định lượng High-Flyer, giữ hộ chiếu của một số nhân viên nhất định.
Những diễn biến này diễn ra vài tuần sau khi có thông tin cho rằng chính phủ Trung Quốc đang hướng dẫn các nhà nghiên cứu AI và doanh nhân tránh đi du lịch đến Mỹ, vì lo ngại mất bí mật thương mại.
TechCrunch đã liên hệ với DeepSeek để xin bình luận về vấn đề này.
Động thái này cho thấy Trung quốc đang nỗ lực bảo vệ tài sản trí tuệ trong lĩnh vực AI và ngăn chặn việc rò rỉ công nghệ ra nước ngoài.

📌 Chính phủ Trung Quốc đang kiểm soát chặt chẽ DeepSeek sau thành công của mô hình R1, giữ hộ chiếu nhân viên và sàng lọc nhà đầu tư, phản ánh chiến lược bảo vệ tài sản trí tuệ AI và ngăn chặn rò rỉ công nghệ ra nước ngoài.

https://techcrunch.com/2025/03/14/china-is-reportedly-keeping-deepseek-under-close-watch/

Không có file đính kèm.

Nguồn tham khảo

195

AI market AI mở-nguồn mở 2025-03-14 01:13:10

Alibaba tham vọng dẫn đầu thị trường với ứng dụng AI mới đầy ấn tượng

Alibaba vừa ra mắt phiên bản mới của ứng dụng trợ lý AI, chỉ một tháng sau khi công bố mô hình AI được cho là vượt trội hơn ChatGPT và DeepSeek.
Ứng dụng mới được hỗ trợ bởi mô hình lập luận Qwen AI của công ty, nhằm cạnh tranh trực tiếp với OpenAI và đối thủ trong nước DeepSeek.
QwQ-32B, ứng dụng mới của Alibaba, miễn phí để tải xuống và sử dụng, kể cả cho mục đích thương mại.
Theo Alibaba, QwQ-32B "rất phù hợp cho các kịch bản ứng dụng đòi hỏi phản hồi nhanh hoặc yêu cầu bảo mật dữ liệu cao" và có thể "dễ dàng triển khai" trên các thiết bị cục bộ "với phần cứng tiêu dùng phổ thông".
Cập nhật chính là ứng dụng trợ lý AI này sử dụng mô hình Qwen LLM thay vì mô hình lập luận Quark của công ty.
Alibaba tuyên bố trong bài đăng blog rằng sản phẩm mới "đã đạt được bước nhảy vọt về chất lượng trong toán học, mã và khả năng tổng quát".
Công ty cũng không ngại công kích DeepSeek, khẳng định trợ lý AI mới của họ "tương đương với DeepSeek-R1" và "gần như hoàn toàn vượt trội so với OpenAI-o1-mini".
Alibaba đang lên kế hoạch đầu tư 380 tỷ nhân dân tệ (52,5 tỷ USD) vào điện toán đám mây và cơ sở hạ tầng AI trong ba năm tới.
Công ty tự hào tuyên bố: "Tính đến nay, số lượng mô hình phái sinh của Qwen trong cộng đồng nguồn mở AI trong nước và quốc tế đã vượt quá 100.000, vượt qua chuỗi mô hình Llama của Mỹ để trở thành nhóm mô hình nguồn mở lớn nhất thế giới."
Tham vọng AI đang có tác động lớn đến lợi nhuận của Alibaba. Vào tháng 2, CNBC đưa tin nhóm Cloud Intelligence của Alibaba đã chứng kiến mức tăng trưởng doanh số 13% so với cùng kỳ năm trước, đạt 31.742 tỷ nhân dân tệ (hơn 4 tỷ USD).
CEO Eddie Wu của Alibaba nhấn mạnh: "Kỷ nguyên AI mang đến nhu cầu rõ ràng và lớn về cơ sở hạ tầng. Chúng tôi sẽ đầu tư mạnh mẽ vào cơ sở hạ tầng AI."
Tuy nhiên, Alibaba có thể gặp thách thức khi mở rộng ra ngoài Trung quốc, đặc biệt khi DeepSeek đã bị cấm ở một số quốc gia vì lo ngại an ninh quốc gia, đặc biệt liên quan đến việc dữ liệu người dùng được lưu trữ tại Trung quốc.
Chính quyền Trump cũng đang ủng hộ mạnh mẽ cho các dự án AI của Mỹ, và những cáo buộc rằng DeepSeek đã sử dụng đầu ra của OpenAI để huấn luyện mô hình của mình có thể khiến mối quan hệ xấu đi.
Hiện tại, trong khi DeepSeek đang thu hút sự chú ý tiêu cực, Alibaba vẫn tiếp tục ra mắt sản phẩm và dường như chưa gặp phải sự phản đối tương tự.

📌 Alibaba đang đẩy mạnh phát triển AI với ứng dụng QwQ-32B dựa trên mô hình Qwen, tuyên bố vượt trội hơn OpenAI-o1-mini và ngang bằng DeepSeek-R1. Với kế hoạch đầu tư 52,5 tỷ USD vào cơ sở hạ tầng AI trong 3 năm tới, công ty đang khẳng định vị thế trong cuộc đua AI toàn cầu.

https://tech.co/news/alibaba-ai-app-launch

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI market 2025-03-12 06:02:48

Manus - AI agent Trung Quốc vượt trội hơn chatbot thông thường

Butterfly Effect, một công ty khởi nghiệp Trung Quốc được Tencent hỗ trợ, đã tạo ra AI agent đa năng Manus có thể thực hiện nhiều tác vụ thực tế.
Công ty đã tổ chức bản xem trước trực tuyến theo lời mời cho Manus vào tuần trước, thu hút sự chú ý của cộng đồng AI trong và ngoài nước.
Theo video demo trực tuyến trên manus.im, Manus có khả năng tạo website tùy chỉnh, lập kế hoạch chi tiết cho chuyến đi Nhật Bản, phân tích sâu về cổ phiếu Tesla và tư vấn bất động sản ở New York dựa trên yêu cầu của gia đình.
Red Xiao Hong, người sáng lập kiêm CEO 33 tuổi của Butterfly Effect, cho biết AI agent "giống con người hơn" so với chatbot vì không chỉ suy nghĩ và trả lời câu hỏi mà còn tương tác với môi trường, thu thập phản hồi và sử dụng phản hồi làm prompt mới.
Xiao tiết lộ trong một cuộc phỏng vấn với cổng thông tin của Tencent vào tháng 2 rằng ông không có ý định phát triển LLM "ngay từ đầu" vì muốn tập trung vào ứng dụng - một phân khúc trong ngành AI vẫn chưa phát triển hoàn thiện.
Manus được xây dựng dựa trên các LLM hiện có, bao gồm Claude của Anthropic và phiên bản tinh chỉnh của Qwen thuộc Alibaba Group Holding, theo chia sẻ của đồng sáng lập kiêm nhà khoa học trưởng Peak Ji Yichao trong một bài đăng trên X vào hôm thứ Hai.
Các mô hình ngôn ngữ lớn (LLM) là công nghệ nền tảng cho các dịch vụ AI tạo sinh như ChatGPT.
Ứng dụng như Manus cho thấy một hướng đi khác cho đổi mới AI bởi các công ty khởi nghiệp công nghệ Trung Quốc.

📌 Butterfly Effect đã phát triển Manus - AI agent Trung Quốc vượt trội hơn chatbot thông thường. Ở tuổi 33, CEO Red Xiao Hong chọn tập trung vào ứng dụng AI thay vì phát triển LLM từ đầu. Manus tạo ấn tượng với khả năng thực hiện nhiều tác vụ phức tạp và hoạt động giống con người thực thụ.

https://www.scmp.com/tech/tech-trends/article/3301864/chinese-ai-agent-manus-transcends-chatbots-founder-start-butterfly-effect-says

Không có file đính kèm.

Nguồn tham khảo

149

AI mở-nguồn mở AI market 2025-03-12 00:40:05

Pháp đang theo đuổi chiến lược hợp tác AI với cả Trung Quốc và Mỹ

Trong khi Mỹ và Trung Quốc nhìn nhận sự phát triển AI qua lăng kính Chiến tranh Lạnh như một cuộc chạy đua vũ trang, Pháp đang nỗ lực phá vỡ mô hình này.
Pháp theo đuổi cách tiếp cận hợp tác trong phát triển AI, sẵn sàng làm việc chặt chẽ với cả Bắc Kinh và Washington về các vấn đề quan trọng.
Tổng lãnh sự Pháp tại Hong Kong, Christile Drulhe, cho biết mặc dù "mỗi quốc gia muốn phát triển hệ sinh thái riêng", họ vẫn chia sẻ "nhiều lợi ích chung" liên quan đến AI.
Những câu hỏi cốt lõi cần giải quyết bao gồm: cách điều chỉnh công nghệ AI ở cấp quốc tế để tránh rủi ro tiềm ẩn cho nhân loại, và cách giúp các nhà khoa học và công ty khởi nghiệp thúc đẩy tiến bộ bằng cách chia sẻ công nghệ nguồn mở.
Pháp không né tránh cạnh tranh và đã thiết lập chiến lược quốc gia nhằm định vị mình là "cường quốc AI".
Tháng 2/2025, chính phủ Pháp công bố sẽ đầu tư 109 tỷ euro (tương đương 118 tỷ USD) vào các dự án cơ sở hạ tầng AI.
Trong khi đó, sự đối đầu Mỹ-Trung ngày càng căng thẳng. Washington đã triển khai hàng loạt biện pháp nhằm hạn chế khả năng tiếp cận của Trung Quốc với các bán dẫn tiên tiến, trong khi Bắc Kinh áp đặt hạn chế xuất khẩu đối với một số khoáng sản mà các công ty Mỹ cần để sản xuất chip.
Chiến lược của châu Âu nói chung và Pháp nói riêng đang theo đuổi con đường thứ ba, tập trung vào hợp tác thay vì đối đầu trong lĩnh vực AI.

📌 Pháp đang định vị mình như một thế lực trung gian trong cuộc chạy đua AI toàn cầu, đầu tư 109 tỷ euro vào cơ sở hạ tầng và thúc đẩy mô hình hợp tác quốc tế. Khác với mô hình đối đầu Mỹ-Trung, chiến lược của Pháp tập trung vào chia sẻ công nghệ nguồn mở và phát triển quy định AI toàn cầu.

https://www.scmp.com/economy/china-economy/article/3301931/open-source-model-why-france-wants-work-closely-china-ai

Không có file đính kèm.

Nguồn tham khảo

113

AI models AI mở-nguồn mở 2025-03-12 00:36:54

Khám phá 4 mô hình AI Trung Quốc đang làm thay đổi thị trường

Cuộc đua AI ở Trung Quốc đang nóng lên với những mô hình mới nổi tạo ra làn sóng trong ngành công nghiệp, với Manus là đối thủ mới nhất được coi là "khoảnh khắc DeepSeek" tiếp theo của Trung Quốc.
DeepSeek R1 là startup AI Trung Quốc đầu tiên làm rung chuyển ngành công nghiệp. Vào tháng 1, mô hình mới của họ đã khiến cổ phiếu công nghệ Mỹ lao dốc và làm dấy lên câu hỏi về vị thế dẫn đầu AI của Mỹ. Được thành lập năm 2023 bởi Liang Wenfeng, DeepSeek đã xây dựng mô hình R1 trên nền tảng V3 với chi phí khoảng 5,6 triệu USD, chỉ bằng một phần nhỏ so với mức đầu tư hơn 60 tỷ USD của Meta.
Alibaba đã trở thành một đối thủ đáng chú ý sau khi công bố mô hình nguồn mở QwQ-32B vào tuần trước. Công ty cho biết mô hình này sử dụng ít dữ liệu hơn DeepSeek nhưng hiệu quả hơn. Động thái này đã khiến cổ phiếu Alibaba tăng vọt 8% trong hai ngày, trong khi Nvidia lại bị ảnh hưởng tiêu cực. Alibaba đã công bố kế hoạch đầu tư ít nhất 53 tỷ USD vào điện toán đám mây và cơ sở hạ tầng AI trong ba năm tới.
Chatbot AI Yuanbao của Tencent đã đứng đầu App Store iOS của Trung Quốc tuần trước, vượt qua DeepSeek trở thành ứng dụng miễn phí được tải xuống nhiều nhất. Tencent, với ứng dụng mạng xã hội WeChat lớn nhất Trung Quốc (gần 1,4 tỷ người dùng), đã tích hợp DeepSeek R1 vào nhiều sản phẩm của mình và ra mắt phiên bản Hunyuan Turbo được cho là cung cấp câu trả lời nhanh hơn DeepSeek.
Manus vừa trở thành hiện tượng AI mới nhất của Trung Quốc, được phát triển bởi startup Monica (công ty con của The Butterfly Effect). Các nhà nghiên cứu tại Monica cho biết Manus là đặc vụ AI tự chủ đầu tiên trên thế giới, có thể hoàn thành các tác vụ phức tạp chỉ sau một lệnh. Tuy nhiên, đồng sáng lập Manus, Yichao 'Peak' Ji, thừa nhận sản phẩm sử dụng Claude 3.5 Sonnet v1 và các mô hình Qwen đã được tinh chỉnh của Alibaba.
Một số chuyên gia như Dean Ball cho rằng Manus không chỉ là một "khoảnh khắc DeepSeek" mà còn tiến xa hơn, thực sự đang mở rộng ranh giới công nghệ. Tuy nhiên, những người khác cho rằng nó bị thổi phồng, với các nhà nghiên cứu AI từ TechCrunch và Pleias phát hiện ra Manus dễ mắc lỗi thực tế, lỗi thực thi và vòng lặp vô tận trong các bài kiểm tra.

📌 Trung Quốc đang thách thức vị thế dẫn đầu AI của Mỹ với 4 mô hình mạnh mẽ: DeepSeek R1 được xây dựng với 5,6 triệu USD (chỉ bằng 1/10 chi phí của Meta), Alibaba QwQ-32B vượt trội hiệu suất, Tencent Yuanbao với 1,4 tỷ người dùng tiềm năng, và Manus - đặc vụ AI tự chủ đầu tiên thế giới.

https://www.businessinsider.com/chinese-ai-models-manus-deepseek-alibaba-tencent-2025-3

Không có file đính kèm.

Nguồn tham khảo

109

AI mở-nguồn mở 2025-03-10 21:04:22

Khám phá cách DeepSeek từ Trung Quốc đang viết lại tương lai của AI

Chỉ vài tuần trước, OpenAI đã phải đối mặt với một đối thủ bất ngờ: DeepSeek - mô hình AI Trung Quốc chi phí thấp nhưng có khả năng tương đương với OpenAI, đánh dấu sự thay đổi lớn trong bức tranh AI toàn cầu.
Khi ra mắt năm 2015, OpenAI có sứ mệnh rõ ràng: khai thác công nghệ làm lợi ích công cộng cho tất cả mọi người, nhưng khi hàng tỷ đô từ Phố Wall đổ vào, ưu tiên đã thay đổi. Một cựu kỹ sư OpenAI thừa nhận: "Chúng tôi trở thành tù nhân của chính sự phóng đại của mình."
Ngành công nghiệp AI từ lâu đã chấp nhận một tín điều cứng nhắc: AI đột phá đòi hỏi 3 yếu tố thiết yếu – đội ngũ tiến sĩ ưu tú, pháo đài dữ liệu độc quyền và nguồn tài trợ gần như vô hạn, đảm bảo sự thống trị của Thung lũng Silicon.
Vào tháng 1/2025, một công ty không mấy tiếng tăm từ Hàng Châu, Trung Quốc đã phá vỡ kịch bản này. DeepSeek xây dựng được những mô hình có khả năng sánh ngang, thậm chí vượt trội các đối thủ phương Tây với chi phí thấp hơn nhiều lần.
Chiến lược nguồn mở của DeepSeek đã tạo ra bước ngoặt. Bằng cách công bố các tham số mô hình và công cụ đào tạo, họ đã dân chủ hóa quá trình phát triển AI, giúp các nhà phát triển trên toàn thế giới dễ dàng tiếp cận.
Liang Wenfeng, người sáng lập DeepSeek, nói: "Đối mặt với công nghệ đột phá, các hệ thống đóng giống như lâu đài cát trước thủy triều. Ngay cả khi OpenAI vẫn đóng cửa, điều đó không thể ngăn họ bị vượt qua."
Tại Hội nghị thượng đỉnh hành động AI Paris, DeepSeek nổi lên như một nhân tố quan trọng. Các nước châu Âu đã khen ngợi DeepSeek vì đã trao quyền cho các doanh nghiệp vừa và nhỏ và nhà phát triển châu Âu, những người trước đây bị loại trừ bởi chi phí cao và rào cản công nghệ của AI.
Clément Delangue, đồng sáng lập Hugging Face, tuyên bố tại hội nghị rằng, DeepSeek đã chứng minh mọi quốc gia đều có thể là một phần của thế giới AI, và giờ đây cả thế giới đang chạy đua để bắt kịp.
David Gosset, người sáng lập sáng kiến toàn cầu Trung Quốc-châu Âu-Mỹ, cũng viết trên China Daily rằng: "Thay vì áp dụng thế phòng thủ, các nước phương Tây nên nhận ra sự cần thiết của việc tham gia cạnh tranh với Trung Quốc thông qua đổi mới nội bộ đồng thời tìm kiếm cơ hội hợp tác."
Với hàng trăm nghìn nhà phát triển sử dụng công cụ của mình, DeepSeek đang phá vỡ "hộp đen" của quá trình phát triển AI, thúc đẩy công bằng và hợp tác, mở đường cho một hệ sinh thái AI toàn diện.

📌 DeepSeek đang thay đổi ngành AI bằng mô hình nguồn mở và chi phí thấp, phá vỡ quan niệm rằng AI đột phá cần vốn khổng lồ. Từ Hàng Châu, Trung Quốc, họ đã chứng minh rằng đổi mới không phải đặc quyền của các tập đoàn tỷ đô, mà có thể phát triển qua hợp tác và sáng tạo toàn cầu.

https://peoplesdaily.pdnews.cn/opinions/er/30048462023

Không có file đính kèm.

Nguồn tham khảo

236

AI chips-hardware-compute AI mở-nguồn mở 2025-03-10 21:00:51

Alibaba tiếp tục thúc đẩy sự tự chủ công nghệ của Trung Quốc với chip RISC-V mới XuanTie C930

Alibaba Group Holding vừa ra mắt bộ vi xử lý XuanTie C930 cấp máy chủ, mang lại động lực mới cho ngành công nghiệp bán dẫn Trung Quốc và mở rộng việc sử dụng chip nguồn mở trong nước.
Bộ vi xử lý này được phát triển bởi Damo Academy - bộ phận nghiên cứu của Alibaba và đơn vị bán dẫn T-Head, nhắm đến các ứng dụng tính toán hiệu năng cao như máy chủ trung tâm dữ liệu và xe tự lái.
XuanTie C930 được thiết kế dựa trên kiến trúc tập lệnh RISC-V, một nền tảng nguồn mở giúp Trung Quốc đối phó với các hạn chế công nghệ từ Mỹ.
Sản phẩm sẽ bắt đầu giao cho khách hàng vào tháng 3/2025, với thiết kế CPU có thể cấp phép cho các nhà phát triển mạch tích hợp (IC).
Theo Ni Guangnan, học giả Viện Kỹ thuật Trung Quốc, mô hình nguồn mở sẽ giúp xây dựng hệ sinh thái RISC-V toàn cầu mang tính hòa nhập và hợp tác, trở thành động lực mới cho sự đột phá trong ngành công nghiệp chip.
Sáng kiến nguồn mở này không chỉ thể hiện tiến bộ của Alibaba trong thiết kế chip RISC-V trong những năm gần đây, mà còn phản ánh cam kết của Trung Quốc trong việc vượt qua các lệnh trừng phạt từ Mỹ.
Các hạn chế thương mại của Mỹ đã cắt giảm khả năng tiếp cận của Trung Quốc với công nghệ bán dẫn tiên tiến và thiết bị sản xuất chip, trong bối cảnh nhu cầu ngày càng tăng từ các dự án phát triển trí tuệ nhân tạo (AI) trong nước.
XuanTie C930 được kỳ vọng sẽ mở đường cho nhiều đổi mới chip nguồn mở hơn nữa tại Trung Quốc, góp phần vào nỗ lực tự chủ công nghệ của quốc gia này.

📌 Alibaba đã tạo bước đột phá với chip RISC-V XuanTie C930 nhắm vào ứng dụng máy chủ và xe tự lái. Sản phẩm nguồn mở này sẽ bắt đầu giao hàng từ tháng 3/2025, phản ánh chiến lược của Trung Quốc nhằm vượt qua lệnh cấm công nghệ Mỹ và phát triển ngành công nghiệp bán dẫn tự chủ.

https://www.scmp.com/tech/big-tech/article/3301620/how-alibabas-new-risc-v-chip-hits-mark-chinas-tech-self-sufficiency-drive

Không có file đính kèm.

Nguồn tham khảo

135

AI mở-nguồn mở AI xã hội 2025-03-10 20:36:31

Tại sao học sinh Hong Kong sử dụng công cụ công nghệ Trung Quốc DeepSeek và RedNote?

Amina Seyd, 16 tuổi từ trường HHCKLA Buddhist Leung Chik Wai College ở Tuen Mun, đã sử dụng RedNote để cải thiện giao tiếp với bạn học đến từ đại lục sau hai năm học cùng lớp mà không tìm được nhiều chủ đề chung để trò chuyện.
RedNote - ứng dụng mạng xã hội phổ biến ở đại lục đã thu hút nhiều người dùng quốc tế, đặc biệt sau khi Mỹ cấm TikTok, khiến nhiều người dùng chuyển sang nền tảng này.
Nhiều người sáng tạo nội dung nói tiếng Trung trên RedNote đã bắt đầu cung cấp nội dung bằng tiếng Anh để phục vụ những người dùng từ TikTok, dạy họ về Tết Trung Quốc và các khía cạnh văn hóa khác.
Sarina Wan Tsz-ching, 17 tuổi, tải RedNote theo đề xuất của bố mẹ để "học thêm và xem nhiều hơn về những gì đang diễn ra ở đại lục Trung Quốc".
Sarina đã khám phá nội dung giáo dục về văn hóa Trung Quốc từ người dùng đại lục, bao gồm quảng bá ẩm thực, thực hành văn hóa và biểu diễn Trung Quốc, giúp cô hiểu hơn về lối sống khác biệt so với Hong Kong.
Tommie Lo, người sáng lập và CEO của Preface, một công ty công nghệ giáo dục tại Hong Kong, cho rằng RedNote có thể giúp cải thiện "hội nhập văn hóa".
DeepSeek, một startup từ đại lục đã phát triển công cụ AI mạnh mẽ, "làm bất ngờ cả thế giới" vào tháng 1 với mô hình AI có hiệu suất gần bằng với mô hình tốt nhất của OpenAI, nhưng với chi phí vận hành chỉ bằng "5% chi phí" để xây dựng ChatGPT.
Lo chỉ ra rằng công cụ DeepSeek có thể là lựa chọn tốt cho người dùng Hong Kong vì ChatGPT không thể sử dụng tại đây.
Sarina cho biết DeepSeek tốt hơn các chatbot AI khác cho các nhiệm vụ bằng tiếng Trung: "Tôi không giỏi viết tiếng Trung, vì vậy tôi sử dụng DeepSeek để hoàn thiện bài viết của mình."
Lo dự đoán nhiều người trên thế giới sẽ tiếp tục tò mò về các ứng dụng Trung Quốc, so sánh công nghệ Trung Quốc hiện tại với công nghệ Nhật Bản 20 năm trước do có sự tồn tại của "giải pháp thay thế Trung Quốc rẻ hơn".

📌 Công nghệ Trung Quốc như RedNote và DeepSeek đang giúp học sinh Hong Kong kết nối văn hóa và cải thiện kỹ năng tiếng Trung. DeepSeek nổi bật với hiệu suất tương đương OpenAI nhưng chi phí chỉ bằng 5%, trong khi RedNote trở thành cầu nối văn hóa, đặc biệt sau lệnh cấm TikTok tại Mỹ.

https://www.scmp.com/yp/spark/stories/article/3301525/why-some-hong-kong-students-use-mainland-chinese-tech-tools-deepseek-and-rednote

Không có file đính kèm.

Nguồn tham khảo

104

AI mở-nguồn mở 2025-03-10 01:31:05

DeepSeek R2 là mô hình AI mới với hiệu suất cao, chi phí thấp và khả năng đa ngôn ngữ

DeepSeek vừa giới thiệu mô hình mới DeepSeek R2, nâng cấp từ DeepSeek R1, với những cải tiến đáng kể về hiệu quả chi phí, khả năng đa ngôn ngữ và hiệu suất tính toán.
Mô hình này được thiết kế để vượt trội hơn các hệ thống độc quyền như GPT-4 của OpenAI về hiệu quả và khả năng chi trả, đồng thời mở rộng hỗ trợ đa ngôn ngữ bổ sung tiếng Tây Ban Nha ngoài tiếng Anh và tiếng Trung.
Trong sự kiện Open source Week, DeepSeek đã công bố 3 công cụ nguồn mở quan trọng: Flat MLA (kernel giải mã được tối ưu hóa cho GPU giúp tăng tốc quá trình tạo văn bản), Deep EP (thư viện giao tiếp cho các mô hình AI) và Deep GEM (thư viện nhân ma trận sử dụng Floating Point Acceleration).
DeepSeek R2 hoạt động trên cụm siêu máy tính Firefly được trang bị chip Nvidia A800, cho phép công ty huấn luyện và triển khai các mô hình ở quy mô lớn, duy trì lợi thế cạnh tranh bất chấp các hạn chế xuất khẩu chip tiên tiến từ Hoa Kỳ.
Về mặt kiến trúc, DeepSeek sử dụng các kỹ thuật tiên tiến như Mixture of Experts (MoE) và Multihead Latent Attention (MLA) để tối ưu hóa phân bổ tài nguyên, cho phép mô hình phân bổ động sức mạnh tính toán nơi cần thiết nhất.
Những cải tiến về kiến trúc này giúp R2 cung cấp kết quả chất lượng cao trong khi giảm thiểu chi phí vận hành, làm cho nó trở thành lựa chọn thực tế cho nhiều ứng dụng khác nhau.
Sự ra mắt của DeepSeek R1 đánh dấu một bước ngoặt trong ngành AI, và với R2, DeepSeek tiếp tục thách thức các chuẩn mực ngành bằng cách cung cấp một giải pháp nguồn mở có thể cạnh tranh với các hệ thống độc quyền về cả hiệu suất và khả năng chi trả.
Chiến lược của DeepSeek thể hiện sự linh hoạt đáng kể trong việc thích ứng với những thách thức địa chính trị, như hạn chế xuất khẩu chip hiệu suất cao, bằng cách tận dụng sự hỗ trợ của chính phủ và điều chỉnh chiến lược hoạt động của mình.
Bằng cách kết hợp khả năng chi trả, hiệu quả và tính bao trùm, DeepSeek R2 có tiềm năng định nghĩa lại tiêu chuẩn ngành và cung cấp quyền truy cập rộng rãi vào khả năng AI tiên tiến, thúc đẩy áp dụng rộng rãi và đổi mới.

📌 DeepSeek R2 mang đến bước đột phá với hiệu suất cao hơn GPT-4 nhưng chi phí thấp hơn, cùng bộ công cụ nguồn mở (Flat MLA, Deep EP, Deep GEM) tối ưu hóa phát triển AI. Mô hình được vận hành trên cụm siêu máy tính Firefly với chip Nvidia A800, sử dụng kiến trúc MoE và MLA, mở rộng hỗ trợ đa ngôn ngữ và định vị công ty như một lực lượng đổi mới trong lĩnh vực AI.

https://www.geeky-gadgets.com/how-deepseek-r2-is-making-ai-faster-cheaper-and-smarter/

Không có file đính kèm.

Nguồn tham khảo

131

AI mở-nguồn mở AI doanh nghiệp AI robotics-auto-agents 2025-03-07 00:24:36

Meta sẽ ra mắt Llama 4 lập luận, tạo ra tác nhân AI tự động hóa doanh nghiệp

Chris Cox, Giám đốc sản phẩm của Meta, tiết lộ rằng phần mềm AI nguồn mở Llama 4 sắp ra mắt sẽ có khả năng lập luận và tạo ra các tác nhân AI có thể sử dụng trình duyệt web và các công cụ khác.
Các tác nhân AI được định nghĩa bởi khả năng thực hiện các tác vụ nhiều bước thay vì chỉ tạo ra phản hồi cho các lệnh nhắc bằng văn bản.
Cox mô tả cách các mô hình AI tiên tiến hơn có thể được sử dụng để hỗ trợ các tác nhân AI hoàn thành các tác vụ kinh doanh cụ thể, như tự động lưu trữ hóa đơn.
Clara Shih, người đứng đầu bộ phận AI kinh doanh của Meta, cho biết công ty tin rằng ngày càng nhiều doanh nghiệp sẽ sử dụng các tác nhân AI để tự động hóa các tác vụ phức tạp.
Meta đã có mối quan hệ tin cậy với 200 triệu doanh nghiệp nhỏ trên toàn cầu. Trong tương lai gần, mỗi doanh nghiệp sẽ có AI đại diện để tự động hóa các tác vụ lặp đi lặp lại, nói bằng giọng nói của họ, tìm kiếm khách hàng và cung cấp dịch vụ vận chuyển 24/7.
Meta sẽ tổ chức hội nghị AI LlamaCon đầu tiên vào ngày 29 tháng 4.
CNBC đưa tin Meta sẽ ra mắt ứng dụng Meta AI độc lập trong quý 2.

📌 Meta đang đặt cược lớn vào AI với Llama 4, nhắm đến thị trường 200 triệu doanh nghiệp nhỏ. Phần mềm này hứa hẹn mang lại khả năng lập luận và tạo ra các tác nhân AI thông minh, có thể tự động hóa nhiều tác vụ phức tạp cho doanh nghiệp.

https://www.cnbc.com/2025/03/05/meta-product-chief-says-llama-4-will-power-ai-agents.html

Không có file đính kèm.

Nguồn tham khảo

169

AI mở-nguồn mở AI nhỏ 2025-03-06 16:27:26

Alibaba ra mắt QwQ-32B cạnh tranh DeepSeek-R1 nhưng yêu cầu tài nguyên tính toán thấp hơn nhiều

Qwen Team, một bộ phận của Alibaba, vừa giới thiệu mô hình lập luận nguồn mở QwQ-32B với 32 tỷ tham số, nhằm cải thiện hiệu suất trong các tác vụ giải quyết vấn đề phức tạp thông qua học tăng cường (RL)1.
Mô hình có sẵn dưới dạng trọng số mở trên Hugging Face và ModelScope với giấy phép Apache 2.0, cho phép sử dụng trong thương mại và nghiên cứu
QwQ-32B là phiên bản mới nhất của QwQ (Qwen-with-Questions), được Alibaba giới thiệu lần đầu vào tháng 11/2024 để cạnh tranh với mô hình o1-preview của OpenAI1.
Mô hình ban đầu có 32 tỷ tham số và độ dài ngữ cảnh 32.000 token, vượt trội o1-preview trong các điểm chuẩn toán học như AIME và MATH, cũng như các tác vụ lập luận khoa học như GPQA1.
QwQ-32B sử dụng phương pháp học tăng cường đa giai đoạn để nâng cao khả năng lập luận toán học, lập trình và giải quyết vấn đề tổng quát
So với DeepSeek-R1 (671 tỷ tham số), QwQ-32B đạt hiệu suất tương đương nhưng chỉ yêu cầu 24 GB vRAM trên GPU, so với hơn 1.500 GB vRAM để chạy DeepSeek R1 đầy đủ
Kiến trúc của QwQ-32B bao gồm 64 lớp transformer với các tối ưu hóa như RoPE, SwiGLU, RMSNorm và Attention QKV bias
Mô hình có độ dài ngữ cảnh mở rộng lên 131.072 token, cho phép xử lý tốt hơn các đầu vào chuỗi dài
Quá trình học tăng cường của QwQ-32B được thực hiện qua hai giai đoạn: tập trung vào toán học và lập trình, sau đó là nâng cao khả năng tổng quát
QwQ-32B có thể hỗ trợ doanh nghiệp trong các lĩnh vực như phân tích dữ liệu tự động, lập kế hoạch chiến lược, phát triển phần mềm và tự động hóa thông minh
Mô hình nhận được phản hồi tích cực từ cộng đồng AI, với nhiều chuyên gia đánh giá cao về tốc độ suy luận và hiệu suất so với các mô hình lớn hơn
QwQ-32B tích hợp khả năng tác nhân, cho phép điều chỉnh động quá trình lập luận dựa trên phản hồi môi trường
Qwen Team coi QwQ-32B là bước đầu tiên trong việc mở rộng học tăng cường để nâng cao khả năng lập luận, với kế hoạch tương lai bao gồm tích hợp tác nhân với RL cho lập luận dài hạn và phát triển hướng tới trí tuệ nhân tạo tổng quát (AGI)

📌 Alibaba ra mắt QwQ-32B, mô hình lập luận nguồn mở 32 tỷ tham số, cạnh tranh với DeepSeek-R1 671 tỷ tham số. Sử dụng học tăng cường đa giai đoạn, QwQ-32B đạt hiệu suất tương đương nhưng chỉ cần 24 GB vRAM, so với 1.500 GB của DeepSeek-R1. Mô hình hứa hẹn thúc đẩy ứng dụng AI trong doanh nghiệp.

https://venturebeat.com/ai/alibabas-new-open-source-model-qwq-32b-matches-deepseek-r1-with-way-smaller-compute-requirements/

Không có file đính kèm.

Nguồn tham khảo

127

AI mở-nguồn mở AI minh bạch 2025-03-03 00:12:46

DeepSeek công bố mở hệ thống suy luận DeepSeek-V3/R1 với hiệu suất ấn tượng, nhưng thiếu minh bạch

DeepSeek vừa công bố bản cập nhật cho hệ thống suy luận DeepSeek-V3/R1, gây chú ý với các thành tựu kỹ thuật ấn tượng:
- Hệ thống song song chuyên gia nâng cao giữa các nút
- Kết hợp đồng thời giao tiếp và tính toán
- Mỗi nút GPU H800 xử lý tới 73.700 token/giây
- Phục vụ hàng tỷ token mỗi ngày
Tuy nhiên, việc công bố thiếu minh bạch gây nghi ngờ về cam kết nguồn mở thực sự của công ty:
- Chỉ chia sẻ một phần mã nguồn như thư viện ma trận FP8 tùy chỉnh
- Giữ kín các thành phần quan trọng như thuật toán cân bằng tải và hệ thống bộ nhớ phân tán
- Thiếu tài liệu toàn diện về dữ liệu và quy trình huấn luyện mô hình
- Không công bố thông tin về bộ dữ liệu, quy trình lọc và giảm thiểu thiên kiến
Chiến lược cấp phép gây tranh cãi:
- Tự gọi là tiên phong nguồn mở nhưng áp dụng giấy phép tùy chỉnh
- Hạn chế sử dụng thương mại đối với mô hình
So với tiêu chuẩn ngành, DeepSeek còn thiếu sót:
- Không cung cấp thẻ mô hình và tài liệu về các biện pháp bảo vệ đạo đức như Meta với LLaMA 2
- Tập trung vào số liệu hiệu suất hơn là tính minh bạch của dữ liệu và đạo đức
Cộng đồng AI kêu gọi minh bạch thực sự:
- Cần công bố đầy đủ từ thiết kế hệ thống đến cân nhắc đạo đức
- Mời gọi kiểm tra độc lập và chia sẻ cả thành tựu lẫn hạn chế

📌 DeepSeek công bố hệ thống suy luận DeepSeek-V3/R1 với hiệu suất cao (73.700 token/giây/GPU), nhưng thiếu minh bạch toàn diện. Cách tiếp cận nguồn mở có chọn lọc của công ty gây nghi ngờ, làm dấy lên cuộc thảo luận về tầm quan trọng của sự minh bạch thực sự trong cộng đồng AI.

https://www.marktechpost.com/2025/03/01/deepseeks-latest-inference-release-a-transparent-open-source-mirage/

Không có file đính kèm.

Nguồn tham khảo

106

AI mở-nguồn mở AI doanh nghiệp AI viễn thông 2025-03-02 12:07:51

DeepSeek trở thành "bộ não" của các tập đoàn nhà nước Trung Quốc, tiết kiệm 90% thời gian vận hành

Các doanh nghiệp nhà nước lớn của Trung Quốc đã kết nối với mô hình AI DeepSeek sau khi chính phủ trung ương khởi động chương trình "AI+" nhằm tăng cường hiệu quả hoạt động.
Theo Xinhua, ít nhất 20 công ty thuộc sở hữu của chính phủ trung ương đã tích hợp DeepSeek vào hoạt động. Các công ty này hoạt động trong lĩnh vực năng lượng, viễn thông, ô tô, tài chính và xây dựng.
Trong lĩnh vực năng lượng và hóa chất, nhiều công ty lớn như Sinopec, PetroChina, CNOOC, Sinochem và các tập đoàn điện hạt nhân đã kết nối mô hình AI của họ với DeepSeek-R1, ra mắt vào ngày 20/1.
PipeChina có thể thiết lập kế hoạch sản xuất trong vài phút thay vì 4 giờ như trước đây nhờ DeepSeek. Họ cũng cải thiện độ chính xác thêm 10% với các mô hình AI.
Thời gian mô phỏng xây dựng hang động muối để lưu trữ khí đốt giảm từ hàng chục ngày xuống chỉ còn một giờ nhờ DeepSeek.
Ngày 17/2, Chủ tịch Trung Quốc Tập Cận Bình đã gặp các lãnh đạo doanh nghiệp tại một hội nghị ở Bắc Kinh, bao gồm Nhậm Chính Phi của Huawei, Jack Ma của Alibaba, Pony Ma của Tencent, và Liang Wenfeng của DeepSeek.
Ủy ban giám sát và quản lý tài sản nhà nước (SASAC) kêu gọi các doanh nghiệp nhà nước nắm bắt cơ hội chiến lược phát triển ngành AI, cải thiện mô hình ngôn ngữ lớn (LLMs) và xây dựng hệ sinh thái mở.
Nhà nghiên cứu Zhou Lisa nhấn mạnh rằng cạnh tranh AI là về quy mô và chất lượng dữ liệu, và các doanh nghiệp nhà nước có nguồn dữ liệu đáng kể để chia sẻ và thương mại hóa.
Sinochem sử dụng khả năng xử lý thông tin phức tạp của DeepSeek để đáp ứng nhu cầu của các kịch bản kinh doanh khác nhau, trong khi China Southern Power Grid sử dụng DeepSeek để nâng cấp mô hình AI "Big Watt".
Mặc dù có nhiều tiến bộ, vẫn còn thách thức trong việc tích hợp Internet vạn vật (IoT) và công nghệ AI. Dong Zhaojie của China Southern Power Grid chia sẻ rằng họ phải dạy mô hình AI nhận biết 500 loại hư hỏng chốt tách khác nhau.
Một số chuyên gia cảnh báo rằng AI có thể thay thế hàng chục triệu việc làm ở Trung Quốc, từ công nhân nhà máy, nhân viên giao hàng đến chuyên gia y tế và công chức.

📌 DeepSeek đang phục vụ 20 doanh nghiệp nhà nước Trung Quốc, giúp giảm thời gian lập kế hoạch từ 4 giờ xuống vài phút và tăng độ chính xác 10%. Với khoảng 500 loại dữ liệu đặc thù được thu thập, các công ty tiết kiệm 10 triệu nhân dân tệ (1,37 triệu USD) chi phí hàng năm, nhưng cũng đặt ra lo ngại về việc làm tương lai.

https://asiatimes.com/2025/02/deepseek-is-now-the-brain-of-chinese-state-owned-firms/#

DeepSeek trở thành bộ não của các doanh nghiệp nhà nước Trung Quốc

Các nhà nghiên cứu Trung Quốc cho rằng nguồn dữ liệu phong phú của doanh nghiệp nhà nước có thể giúp đẩy nhanh sự phát triển AI của Trung Quốc

Tác giả: Yong Jian
Ngày 28 tháng 2 năm 2025

Các doanh nghiệp nhà nước (DNNN) lớn tại Trung Quốc đã kết nối với mô hình trí tuệ nhân tạo của DeepSeek sau khi chính phủ trung ương triển khai chương trình “AI+” nhằm nâng cao hiệu quả hoạt động.

Tân Hoa Xã đưa tin ít nhất 20 doanh nghiệp do chính phủ trung ương sở hữu đã tích hợp DeepSeek vào hoạt động của mình. Các công ty này thuộc các ngành năng lượng, viễn thông, ô tô, tài chính và xây dựng.

Trong lĩnh vực năng lượng và hóa chất, Sinopec, PetroChina, CNOOC, Sinochem, China National Nuclear Power Co, China General Nuclear Power Group, China Southern Power Grid và China Oil and Gas Pipeline Network Corp (PipeChina) cho biết họ đã kết nối các mô hình AI của mình với DeepSeek-R1, được ra mắt vào ngày 20 tháng 1.

“Với DeepSeek và các mô hình ngôn ngữ lớn (LLMs) khác, các trung tâm kiểm soát dầu khí của PipeChina có thể thiết lập kế hoạch sản xuất chỉ trong vài phút thay vì 4 giờ,” Xu Kun, phó tổng giám đốc Công ty Công nghệ Kỹ thuật số Zhiwang Bắc Kinh, một đơn vị thuộc PipeChina, nói trong một cuộc phỏng vấn với Đài truyền hình trung ương Trung Quốc (CCTV). “Ngoài ra, các mô hình AI còn giúp tăng độ chính xác lên 10%.”

LLMs là thuật ngữ chỉ các mô hình AI như ChatGPT, có khả năng hiểu ngôn ngữ con người và xử lý ngôn ngữ tự nhiên (NLP).

“Bên cạnh đó, PipeChina có thể sử dụng DeepSeek để rút ngắn thời gian mô phỏng quá trình xây dựng kho chứa khí bằng hang muối từ vài chục ngày xuống chỉ còn một giờ,” Xu nói.

PipeChina, do Ủy ban Giám sát và Quản lý Tài sản Nhà nước (SASAC) của Quốc vụ viện kiểm soát, là đơn vị thi công tuyến đường ống dẫn khí tự nhiên Trung Quốc-Nga, còn gọi là "Sức mạnh Siberia". Đường ống này vận chuyển 38 tỷ mét khối khí tự nhiên mỗi năm từ đông Siberia của Nga sang miền bắc Trung Quốc.
Năm 2022, PipeChina thành lập Công ty Công nghệ Kỹ thuật số Zhiwang Bắc Kinh để số hóa hoạt động của mình.

Tháng 12 năm ngoái, PipeChina ra mắt mô hình AI "Pipeline Network" sử dụng nền tảng Huawei Cloud. Công ty cho biết đã triển khai mô hình này trong hơn 20 tình huống ứng dụng và có kế hoạch mở rộng sang 80 tình huống khác.

Kế hoạch của Bắc Kinh

Ngày 17 tháng 2, Chủ tịch Trung Quốc Tập Cận Bình đã gặp gỡ các lãnh đạo doanh nghiệp tại một hội nghị ở Bắc Kinh. Những người tham dự gồm nhà sáng lập Huawei Nhậm Chính Phi, đồng sáng lập Alibaba Jack Ma, chủ tịch Tencent Mã Hóa Đằng, nhà sáng lập DeepSeek Lương Văn Phong và nhà sáng lập Unitree Robotics Vương Hưng Hưng.

Ngày 19 tháng 2, SASAC tổ chức cuộc họp với một nhóm DNNN trung ương để tổng kết kết quả phát triển AI và lên kế hoạch cho tương lai. DNNN bao gồm tất cả doanh nghiệp do chính phủ trung ương và địa phương kiểm soát, trong khi DNNN trung ương là các doanh nghiệp thuộc sở hữu của chính phủ trung ương.

“Các DNNN trung ương nên nắm bắt thời cơ chiến lược để phát triển ngành AI. Họ cần cải thiện các mô hình ngôn ngữ lớn (LLMs), tập trung vào việc ứng dụng công nghệ cốt lõi, xây dựng hệ sinh thái mở, phát triển đổi mới sáng tạo từ con số 0 và thương mại hóa thành tựu khoa học,” cuộc họp nêu rõ.

“Chính phủ trung ương cần tăng cường hỗ trợ DNNN trung ương ứng dụng công nghệ AI, nhấn mạnh sự phát triển AI trong kế hoạch 5 năm lần thứ 15 (2026-2030), hỗ trợ tạo ra nhiều doanh nghiệp AI hàng đầu và startup hơn,” cuộc họp cho biết, đồng thời nhấn mạnh rằng chính phủ và DNNN trung ương sẽ tăng cường đầu tư vốn để đảm bảo các nhân tài có thể tập trung vào nghiên cứu và phát triển dài hạn.

“Cuộc đua AI phụ thuộc vào quy mô và chất lượng dữ liệu,” Zhou Lisa, nhà nghiên cứu tại Hiệp hội Cải cách và Phát triển Doanh nghiệp Trung Quốc – một đơn vị nghiên cứu trực thuộc SASAC – nói với Tân Hoa Xã. “Các DNNN trung ương sở hữu nguồn dữ liệu khổng lồ, do đó họ có thể sử dụng DeepSeek để chia sẻ và thương mại hóa dữ liệu của mình.”

“Nhiều DNNN trong lĩnh vực năng lượng đã triển khai các ứng dụng AI để thúc đẩy chuyển đổi số. Việc kết nối với DeepSeek sẽ giúp họ cung cấp thêm nhiều giải pháp,” bà nói.

Bà lấy ví dụ rằng Sinochem sử dụng DeepSeek để xử lý thông tin phức tạp, suy luận logic và mở rộng kiến thức lĩnh vực để đáp ứng các kịch bản kinh doanh khác nhau. Trong khi đó, China Southern Power Grid đã nâng cấp mô hình AI Big Watt của mình – ra mắt vào tháng 9 năm 2023 – để thu thập dữ liệu về thiệt hại của cơ sở hạ tầng.

Thách thức

Trung Quốc đã phát triển các mô hình AI phục vụ công nghiệp trong vài năm qua.

Tháng 5 năm ngoái, China Mobile ra mắt mô hình AI Jiutian, có chuyên môn trong 15 ngành công nghiệp, bao gồm viễn thông, sản xuất điện, logistics, năng lượng, kim loại, xây dựng, giao thông và hàng không. Công ty cho biết sẽ phát triển thêm các mô hình AI tùy chỉnh cho 40 ngành công nghiệp khác.

Tháng 7, China Telecom ra mắt mô hình AI tạo sinh TeleChat2, có khả năng chỉnh sửa video và thiết kế đồ họa. Công ty cho biết TeleChat2 có thể hiểu các phương ngữ khác nhau của Trung Quốc và được sử dụng rộng rãi trong các dịch vụ công tại nhiều thành phố.

Tuy nhiên, các doanh nghiệp Trung Quốc vẫn gặp thách thức khi cố gắng tích hợp công nghệ AI và Internet vạn vật (IoT).

Tháng 6 năm 2024, chuyên gia AI Đổng Triệu Kiệt từ China Southern Power Grid cho biết công ty đã triển khai drone để kiểm tra cột truyền tải điện và chụp hơn 10.000 bức ảnh về chốt tách.

Ông kỳ vọng AI có thể tự động xác định chốt bị hỏng từ các bức ảnh, nhưng thực tế không như vậy. Cuối cùng, các kỹ sư phải đến thực địa thu thập dữ liệu và dạy AI rằng có đến 500 dạng hỏng hóc khác nhau của chốt tách.

Sau khi mô hình AI hoạt động ổn định, công ty tiết kiệm được khoảng 10 triệu nhân dân tệ (1,37 triệu USD) mỗi năm cho việc tìm kiếm chốt tách bị hỏng.

Trong khi truyền thông nhà nước ca ngợi sự phát triển của AI tại Trung Quốc, một nhà bình luận ở Giang Tô có tên Qianqian cảnh báo rằng AI có thể thay thế hàng chục triệu việc làm, từ công nhân nhà máy và nhân viên giao hàng đến chuyên gia y tế và công chức. Bà cho rằng mọi người cần liên tục học hỏi kỹ năng mới để tránh mất việc.

Yong Jian là cộng tác viên của Asia Times. Ông là một nhà báo Trung Quốc chuyên viết về công nghệ, kinh tế và chính trị Trung Quốc.

Không có file đính kèm.

Nguồn tham khảo

AI robotics-auto-agents AI mở-nguồn mở 2025-02-28 23:37:16

Unitree Robotics mở nguồn mã và thiết kế phần cứng robot "võ sư" G1

Unitree Robotics, công ty công nghệ có trụ sở tại Hàng Châu (Trung Quốc), vừa công bố quyết định mở nguồn mã cho thuật toán tiên tiến và thiết kế phần cứng của robot G1, hành động tương tự như cách DeepSeek đã mở nguồn mã các mô hình AI của mình.
Robot G1 đã có sự tiến bộ đáng kinh ngạc, từ những động tác khiêu vũ cứng nhắc đến các đòn võ xoay người nhanh như chớp chỉ trong vòng một tháng. Sau màn ra mắt vụng về tại Gala Lễ hội Mùa xuân Trung Quốc, robot này đã thể hiện các kỹ thuật võ thuật trong demo mới nhất được phát hành vào thứ Tư.
G1 được trang bị 43 khớp nối và có khả năng học bắt chước, cho phép nó thực hiện đòn đá xoay người một cách mềm mại đến mức được so sánh với phim "Mãnh Long Quá Giang" của Lý Tiểu Long.
Robot này có giá 99.000 nhân dân tệ (khoảng 13.622 USD), thể hiện sự cạnh tranh trực tiếp với Boston Dynamics, công ty robot nổi tiếng của Mỹ.
Unitree đã đăng tải bộ dữ liệu, mã đào tạo học tăng cường và thông số kỹ thuật phần cứng cho cả mô hình H1 và G1 lên GitHub, nền tảng thường được sử dụng cho các dự án phát triển nguồn mở.
Công ty đã thách thức cộng đồng trên mạng xã hội bằng câu hỏi: "Bạn muốn xem động tác nào tiếp theo?", cho thấy tham vọng vượt xa các động tác biểu diễn có kịch bản của đối thủ Boston Dynamics.
Quyết định mở nguồn mã này phản ánh chiến lược phát triển AI của Trung Quốc, tạo cơ hội cho cộng đồng toàn cầu đóng góp vào sự phát triển của công nghệ robot nhân hình.
Sự tiến bộ nhanh chóng của G1 từ các động tác vụng về đến những kỹ thuật võ thuật phức tạp chỉ trong vài tuần cho thấy tốc độ phát triển đáng kinh ngạc trong lĩnh vực robot nhân hình tại Trung Quốc.
Việc mở nguồn mã này có thể thúc đẩy sự đổi mới và hợp tác trong ngành công nghệ robot, tương tự như cách các mô hình AI mở đã thúc đẩy sự phát triển trong lĩnh vực trí tuệ nhân tạo.

📌 Unitree Robotics đã mở nguồn mã robot G1 giá 13.622 USD với 43 khớp nối, cho phép thực hiện động tác võ thuật tinh vi chỉ sau một tháng từ màn ra mắt vụng về. Động thái này phản ánh chiến lược nguồn mở của Trung Quốc trong cuộc đua công nghệ robot nhân hình toàn cầu.

https://www.scmp.com/news/china/science/article/3300380/another-deepseek-moment-chinas-kung-fu-bot-goes-open-source

Không có file đính kèm.

Nguồn tham khảo

139

AI tools AI mở-nguồn mở 2025-02-27 23:48:26

olmOCR: Công cụ nguồn mở xử lý 1 triệu trang PDF với chi phí chỉ 190 USD, rẻ hơn 32 lần so với GPT-4o

Allen Institute for AI vừa phát hành olmOCR, bộ công cụ nguồn mở hiệu năng cao được thiết kế để chuyển đổi PDF và hình ảnh tài liệu thành văn bản thuần túy có cấu trúc.
Việc tiếp cận dữ liệu văn bản chất lượng cao là yếu tố quan trọng để phát triển các mô hình ngôn ngữ hiện đại. Các hệ thống AI ngày nay phụ thuộc vào bộ dữ liệu khổng lồ hàng nghìn tỷ token để nâng cao độ chính xác.
Khác với trang web có cấu trúc dễ phân tích, PDF ưu tiên bố cục trực quan hơn là luồng văn bản hợp lý, gây khó khăn cho việc trích xuất.
Nhiều PDF mã hóa văn bản ở cấp độ ký tự, ghi lại vị trí và thuộc tính phông chữ của mỗi chữ cái mà không bảo toàn cấu trúc câu, khiến việc tái tạo nội dung mạch lạc trong bố cục nhiều cột trở nên khó khăn.
olmOCR được xây dựng trên mô hình ngôn ngữ thị giác (VLM) 7 tỷ tham số và được tinh chỉnh trên 260.000 trang PDF từ hơn 100.000 tài liệu độc đáo.
Đổi mới cốt lõi của olmOCR là "document anchoring" - kỹ thuật kết hợp metadata văn bản với phân tích dựa trên hình ảnh, giúp nhận dạng cấu trúc tài liệu phức tạp tốt hơn.
Hệ thống có khả năng xử lý hàng loạt quy mô lớn, cho phép chuyển đổi hiệu quả về chi phí với các kho tài liệu khổng lồ - xử lý một triệu trang PDF chỉ với 190 USD, rẻ hơn 32 lần so với GPT-4o (6.200 USD).
olmOCR đạt điểm căn chỉnh 0,875 với mô hình giáo viên của nó, vượt qua các mô hình quy mô nhỏ hơn như GPT-4o Mini và nhận được xếp hạng ELO cao nhất trong đánh giá của con người.
Khi văn bản được trích xuất bằng olmOCR được sử dụng để huấn luyện mô hình ngôn ngữ OLMo-2-1124-7B, nó đã cải thiện độ chính xác trung bình 1,3 điểm phần trăm trên nhiều bài kiểm tra AI.
Công cụ này tương thích với các framework suy luận như vLLM và SGLang, cho phép triển khai linh hoạt trên các cấu hình phần cứng khác nhau.

📌 Allen Institute for AI đã tạo bước đột phá với olmOCR, công cụ nguồn mở chuyển đổi PDF thành văn bản có cấu trúc với chi phí chỉ 190 USD cho 1 triệu trang, rẻ hơn GPT-4o 32 lần. Sử dụng mô hình 7 tỷ tham số, olmOCR cải thiện hiệu suất mô hình ngôn ngữ lên 1,3% khi dùng trong huấn luyện.

https://www.marktechpost.com/2025/02/26/allen-institute-for-ai-released-olmocr-a-high-performance-open-source-toolkit-designed-to-convert-pdfs-and-document-images-into-clean-and-structured-plain-text/

Không có file đính kèm.

Nguồn tham khảo

102

AI mở-nguồn mở 2025-02-26 00:21:49

DeepSeek đang đẩy nhanh việc ra mắt mô hình AI thế hệ tiếp theo R2

DeepSeek đang đẩy nhanh việc ra mắt mô hình AI thế hệ tiếp theo R2, theo ba nguồn tin thân cận với công ty. Ban đầu dự kiến phát hành vào đầu tháng 5, nhưng giờ đây họ muốn ra mắt càng sớm càng tốt.
Mô hình R1 của startup này đã gây chấn động khi kích hoạt đợt bán tháo cổ phiếu trên thị trường toàn cầu, làm bay hơi hơn 1 nghìn tỷ USD vào tháng trước. Điều đáng kinh ngạc là R1 có giá thấp hơn nhưng vượt trội so với nhiều đối thủ phương Tây.
Công ty cho biết mô hình R2 sẽ có khả năng lập trình tốt hơn và có thể lập luận bằng nhiều ngôn ngữ ngoài tiếng Anh.
Vijayasimha Alilughatta, giám đốc điều hành của nhà cung cấp dịch vụ công nghệ Ấn Độ Zensar, nhận định việc ra mắt R2 có thể là "thời khắc then chốt trong ngành công nghiệp AI", có khả năng phá vỡ sự thống trị của một số ít các công ty lớn.
Thành công của DeepSeek khiến chính phủ Mỹ lo ngại, vì họ xác định vị trí dẫn đầu trong lĩnh vực AI là ưu tiên quốc gia. Trong khi đó, chính quyền và các công ty Trung Quốc đang tích cực ủng hộ DeepSeek, với hàng chục công ty cho biết đã bắt đầu tích hợp mô hình DeepSeek vào sản phẩm của họ.
Người sáng lập DeepSeek, Liang Wenfeng, đã trở thành tỷ phú nhờ quỹ đầu tư định lượng High-Flyer của mình. Liang được mô tả là người "kín tiếng và hướng nội" và không trả lời phỏng vấn nào kể từ tháng 7/2024.
DeepSeek hoạt động giống một phòng thí nghiệm nghiên cứu hơn là một doanh nghiệp vì lợi nhuận. Công ty không bị ràng buộc bởi truyền thống phân cấp của ngành công nghệ áp lực cao của Trung Quốc.
Liang sinh năm 1985 tại một làng quê ở tỉnh Quảng Đông và tốt nghiệp ngành kỹ thuật truyền thông tại Đại học Chiết Giang danh tiếng.
Tại DeepSeek và High-Flyer, Liang đã từ bỏ các thông lệ của các gã khổng lồ công nghệ Trung Quốc vốn nổi tiếng với cách quản lý cứng nhắc từ trên xuống, trả lương thấp cho nhân viên trẻ và văn hóa "996" - làm việc từ 9 giờ sáng đến 9 giờ tối, sáu ngày một tuần.
DeepSeek đã phát triển mô hình R1 cạnh tranh với các mô hình được phát triển bởi các gã khổng lồ công nghệ Mỹ với chi phí hàng trăm tỷ đô la, mặc dù sử dụng chip Nvidia kém mạnh hơn.

📌 DeepSeek đang đẩy nhanh ra mắt mô hình AI R2 sau khi R1 gây chấn động thị trường toàn cầu làm bay hơi 1 nghìn tỷ USD. Với phong cách quản lý phẳng khác biệt so với các công ty công nghệ Trung Quốc truyền thống, startup này đã phát triển mô hình AI cạnh tranh với các đối thủ phương Tây dù chi phí thấp hơn nhiều.

https://www.reuters.com/technology/artificial-intelligence/deepseek-rushes-launch-new-ai-model-china-goes-all-2025-02-25/

Không có file đính kèm.

Nguồn tham khảo

AI so sánh AI mở-nguồn mở 2025-02-23 02:42:51

DeepSeek vs Llama vs Qwen - Đâu là mô hình AI nguồn mở tốt nhất cho máy tính cá nhân?

Thị trường mô hình AI nhỏ và chuyên biệt có thể chạy trên máy tính cá nhân đang phát triển mạnh mẽ, được thúc đẩy bởi nhu cầu ứng dụng cá nhân và doanh nghiệp
DeepSeek:
- Là sản phẩm gây bất ngờ từ Trung Quốc, miễn phí và nguồn mở
- Có thể chạy trên phần cứng khiêm tốn, đặc biệt với phiên bản nhỏ
- Mô hình DeepSeek R1 Distill Llama 8B chỉ nặng 5,3 GB, chạy tốt trên PC
- Phù hợp cho tác vụ cơ bản như chat, tìm kiếm, tư vấn thuế
Qwen:
- Có 3 phiên bản: 7B, 14B và 32B
- Phiên bản 7B chạy nhanh nhất trên máy thông thường
- Cung cấp phiên bản chuyên biệt cho lập trình, tạo mã nguồn miễn phí
Llama:
- Mô hình tiên phong, ổn định và linh hoạt
- Mạnh về xử lý hình ảnh qua phiên bản Llama 3.2-vision
- Ứng dụng đa dạng từ quét biển số xe đến chẩn đoán X-quang
- Phiên bản tùy chỉnh Llama 3 phù hợp cho kiến thức tổng quát
Lưu ý khi sử dụng:
- Nên dùng phiên bản mới nhất vì công nghệ phát triển nhanh
- Cửa sổ ngữ cảnh nhỏ hơn do giới hạn phần cứng
- Có thể tìm và cài đặt qua Hugging Face, Ollama hoặc LMStudio

📌 3 mô hình AI nguồn mở hàng đầu đang cạnh tranh gay gắt trên thị trường PC. DeepSeek nổi bật với khả năng chạy trên phần cứng thấp (5,3 GB), Qwen đa dạng với 3 phiên bản, trong khi Llama dẫn đầu về xử lý hình ảnh. Người dùng có thể dễ dàng cài đặt qua Hugging Face hoặc LMStudio.

https://www.tomsguide.com/ai/i-put-deepseek-vs-meta-ai-llama-vs-qwen-to-the-test-locally-on-my-pc-heres-what-i-recommend-using

Không có file đính kèm.

Nguồn tham khảo

116

AI models AI mở-nguồn mở 2025-02-22 07:35:31

Le Chat - chatbot AI của Pháp được phát triển bởi Mistral AI, đối thủ cạnh tranh với ChatGPT

Le Chat, chatbot AI do công ty khởi nghiệp Mistral AI của Pháp phát triển, đã ra mắt ứng dụng điện thoại thông minh vào ngày 6/2/2025
Arthur Mensch, giám đốc 32 tuổi của Mistral, xác nhận biểu tượng chữ M của Le Chat được thiết kế như khuôn mặt một chú mèo
Sau vài ngày ra mắt, Le Chat trở thành ứng dụng iOS được tải xuống nhiều nhất tại Pháp
Le Chat sử dụng chip từ Cerebras (đối thủ của Nvidia) và hoạt động nhanh hơn nhiều so với các trợ lý AI khác như ChatGPT
Bộ Quốc phòng Pháp và Helsing (startup Đức chuyên về máy bay không người lái) đã ký thỏa thuận hợp tác với Mistral
Pháp công bố khoản đầu tư AI tư nhân trị giá 109 tỷ euro (113 tỷ USD) trong những năm tới, chủ yếu dành cho các trung tâm dữ liệu sử dụng điện hạt nhân
Con số này vượt xa khoản đầu tư 39 tỷ bảng Anh (49 tỷ USD) mà Anh dự định chi cho AI
Tại hội nghị thượng đỉnh AI ở Paris, có tranh cãi với Phó Tổng thống Mỹ J.D. Vance về quy định AI, khi ông cáo buộc các nhà lãnh đạo thế giới muốn "bóp nghẹt" AI
Le Chat sử dụng mô hình nguồn mở như DeepSeek của Trung Quốc nhưng không gây lo ngại về an ninh quốc gia

📌 Le Chat là minh chứng cho tham vọng AI của Pháp với khoản đầu tư 113 tỷ USD, gấp đôi Anh Quốc. Dù còn mới mẻ, chatbot này đã nhanh chóng chiếm lĩnh thị trường Pháp và được hỗ trợ bởi công nghệ chip tiên tiến của Cerebras.

https://www.economist.com/europe/2025/02/13/is-frances-le-chat-in-fact-a-cat

Le Chat, chú mèo AI mà Pháp đặt kỳ vọng vào
Trợ lý trò chuyện của Mistral AI đặt ra một câu hỏi cấp bách

Ngày 13 tháng 2 năm 2025 | PARIS

Một câu hỏi cấp bách tại hội nghị thượng đỉnh về trí tuệ nhân tạo (AI) ở Paris tuần này là: trợ lý AI của Mistral là mèo hay là trò chuyện? Có tên gọi Le Chat, ứng dụng này do một startup Pháp phát triển để cạnh tranh với ChatGPT và đã ra mắt trên điện thoại thông minh vào ngày 6 tháng 2. Với người nói tiếng Anh, Le Chat giống như một cách chơi chữ kiểu Pháp của AI chat, vốn hoạt động bằng tiếng Anh (và các ngôn ngữ khác). Tuy nhiên, tại sự kiện, Tổng thống Emmanuel Macron đã phát âm với âm "sh" nhẹ, khiến Le Chat nghe giống như một chú mèo. Arthur Mensch, CEO 32 tuổi của Mistral, khẳng định rằng "đứa con tinh thần" của mình thực sự có bốn chân. Ông chỉ ra rằng nếu quan sát kỹ biểu tượng có hình chữ M, ta sẽ thấy đó cũng là khuôn mặt của một con mèo.

Chỉ vài ngày sau khi ra mắt, Le Chat đã trở thành ứng dụng iOS được tải xuống nhiều nhất tại Pháp. Ứng dụng này chạy trên chip của Cerebras, một công ty Mỹ cạnh tranh với Nvidia, giúp tốc độ sử dụng nhanh hơn so với các trợ lý AI khác, bao gồm cả ChatGPT. Giống như DeepSeek của Trung Quốc, Le Chat sử dụng mô hình mã nguồn mở; nhưng không giống trợ lý AI Trung Quốc, ứng dụng này không gây ra lo ngại về an ninh quốc gia. Bộ Quốc phòng Pháp cũng như Helsing, một startup Đức chuyên về máy bay không người lái tấn công thông minh, đã ký hợp đồng với Mistral. “Không có gì giống như Le Chat ở châu Âu”, Verity Harding, một chuyên gia AI người Anh, nhận xét. “Khi bạn tải ứng dụng này,” ông Macron tuyên bố, “bạn đang giúp đỡ một nhà vô địch châu Âu.”

Như thường lệ, việc xây dựng các "nhà vô địch" là thông điệp cốt lõi ở Paris, dù lần này bị lu mờ bởi cuộc tranh cãi với J.D. Vance, Phó tổng thống Mỹ, về quy định quản lý AI. Các đại biểu tham dự hội nghị cam kết công nghệ sẽ “an toàn, bảo mật và đáng tin cậy”; nhưng ông Vance lại cáo buộc các nhà lãnh đạo thế giới muốn "bóp nghẹt" AI.

Dù vậy, Pháp vẫn công bố khoản đầu tư AI trị giá 109 tỷ euro (113 tỷ USD) từ khu vực tư nhân, chủ yếu từ nước ngoài, trong những năm tới. Phần lớn số tiền này sẽ được sử dụng để xây dựng các trung tâm dữ liệu có thể tận dụng nguồn điện hạt nhân ít carbon của Pháp. Khoản đầu tư này vượt xa con số 39 tỷ bảng Anh (49 tỷ USD) mà Anh tuyên bố sẽ chi cho AI. Dù đang đối mặt với nhiều khó khăn chính trị, ông Macron vẫn tỏ ra đầy lạc quan khi thuyết phục các ông trùm công nghệ nước ngoài và các nhà lãnh đạo trong bữa tiệc foie gras và champagne tại Điện Élysée.

Le Chat vẫn còn một chặng đường dài phía trước. Ngay cả ở châu Âu, nó vẫn chưa được nhiều người biết đến. Mistral chỉ là một "chú lùn" so với các gã khổng lồ công nghệ Mỹ. Nhưng tại Paris, ứng dụng này đã khiến giới AI bàn tán xôn xao. Nếu yêu cầu Le Chat giải thích cái tên của mình một cách dí dỏm, nó sẽ đáp lại: “một cách mở đầu cuộc trò chuyện và một chiến dịch tiếp thị tuyệt đỉnh.” ■

Le Chat, the cat-bot France has pinned its AI hopes on
Mistral AI’s chat assistant raises a pressing question
French President Emmanuel Macron at the Artificial Intelligence (AI) Action Summit in Paris
Make way for the catPhotograph: Reuters
Feb 13th 2025|PARIS

One pressing question at the artificial-intelligence (AI) summit in Paris this week was this: is Mistral AI’s assistant a cat, or a chat? Called Le Chat and developed by a French startup as a competitor to ChatGPT, it launched as a smartphone app on February 6th. To the English speaker, Le Chat looks like a French twist on AI chat, which it conducts in English (and other languages). Yet at the jamboree President Emmanuel Macron plugged it using a soft “sh”, rendering Le Chat distinctly feline. Arthur Mensch, Mistral’s 32-year-old boss, says his baby is indeed four-legged. Look carefully at the icon in the shape of the letter M, he says: it is also a cat’s face.
Days after it launched, Le Chat became the most-downloaded iOS app in France. Powered by chips from Cerebras, an American competitor to Nvidia, it is much faster to use than other AI assistants, including ChatGPT. Like China’s DeepSeek, it uses open-source models; but unlike the Chinese AI assistant, Le Chat does not raise national-security questions. France’s defence ministry, as well as Helsing, a German startup focused on intelligent strike drones, have signed deals with Mistral. “There’s nothing like Le Chat anywhere else in Europe,” says Verity Harding, a British AI specialist. “When you download it,” declared Mr Macron, “you are helping a European champion.”
As ever, trying to build champions was a core message in Paris, though one that was marred by a spat with J.D. Vance, America’s vice-president, over regulation. The summiteers promised technology that would be “safe, secure and trustworthy”; he accused world leaders of wanting to “strangle” AI.
All the same, France unveiled €109bn ($113bn) in private, mostly foreign, AI investment over the coming years, much of it to go on data centres that can make use of the country’s low-carbon nuclear electricity. This boost to France’s AI sector well exceeds the £39bn ($49bn) that Britain says it will spend on AI. For all his political woes, Mr Macron was strikingly chirpy as he cajoled foreign tech bosses and leaders over foie gras and champagne at the Elysée Palace.
Le Chat has a long way to go. It is little known, even in Europe. Mistral is a dwarf among American tech giants. But in Paris it got the AI world talking. Ask Le Chat to explain its name wittily and it shoots back: “a conversation starter and a purr-fect marketing coup”. ■

Không có file đính kèm.

Nguồn tham khảo

119

AI mở-nguồn mở AI startup-M&A 2025-02-22 07:14:29

DeepSeek thông báo chia sẻ mã nguồn mở của 5 kho mã AI vào tuần tới

DeepSeek sẽ công khai mã nguồn của 5 kho mã vào tuần tới, mô tả đây là "tiến bộ nhỏ nhưng chân thành" với "sự minh bạch hoàn toàn"
Công ty đã gây chấn động ngành AI toàn cầu vào tháng trước khi phát hành mô hình lập luận R1 nguồn mở, có hiệu suất ngang tầm các hệ thống phương Tây nhưng chi phí phát triển thấp hơn
Chiến lược nguồn mở của DeepSeek khác biệt so với phần lớn công ty AI Trung Quốc và Mỹ, vốn thiên về mô hình đóng
Nhà sáng lập Liang Wenfeng chia sẻ trong cuộc phỏng vấn hiếm hoi vào tháng 7/2024: công ty không ưu tiên thương mại hóa mô hình AI, nguồn mở mang lại sức mạnh mềm và sự tôn trọng
Mã nguồn mở mới sẽ cung cấp cơ sở hạ tầng hỗ trợ các mô hình AI mà DeepSeek đã chia sẻ công khai
DeepSeek vừa phát hành thuật toán Native Sparse Attention (NSA) vào ngày 20/2/2025, được thiết kế để tăng hiệu quả đào tạo và suy luận ngữ cảnh dài
Tại Trung Quốc, DeepSeek là dịch vụ chatbot phổ biến nhất với 22,2 triệu người dùng hoạt động hàng ngày tính đến 11/1/2025, vượt qua Douban với 16,95 triệu người dùng

📌 Startup DeepSeek đang dẫn đầu thị trường chatbot Trung Quốc với 22,2 triệu người dùng hàng ngày, khẳng định cam kết nguồn mở qua việc công bố 5 kho mã mới và thuật toán NSA, đi ngược xu hướng đóng của các đối thủ.

https://www.reuters.com/technology/artificial-intelligence/deepseek-share-some-ai-model-code-doubling-down-open-source-2025-02-21/

Không có file đính kèm.

Nguồn tham khảo

102

AI mở-nguồn mở 2025-02-19 21:14:23

Perplexity AI phát hành mã nguồn mở R1 1776 - phiên bản cải tiến của DeepSeek-R1

Perplexity AI công bố mã nguồn mở R1 1776, một phiên bản được huấn luyện lại từ DeepSeek-R1 nhằm loại bỏ kiểm duyệt và đưa ra phản hồi dựa trên sự thật
Giám đốc Aravind Srinivas chia sẻ công ty đang cân nhắc phát hành mã nguồn mở cho cả quá trình huấn luyện và suy luận
DeepSeek-R1 là mô hình ngôn ngữ lớn có khả năng suy luận tương đương các mô hình hàng đầu như o1 và o3-mini
Phiên bản gốc DeepSeek-R1 từ chối phản hồi các chủ đề nhạy cảm, đặc biệt là những nội dung bị Đảng Cộng sản Trung Quốc kiểm duyệt
Quá trình huấn luyện lại bao gồm:
- Tập dữ liệu 40.000 câu hỏi đa ngôn ngữ về các chủ đề bị kiểm duyệt
- Xác định khoảng 300 chủ đề bị kiểm duyệt bởi chuyên gia
- Phát triển bộ phân loại kiểm duyệt đa ngôn ngữ
- Sử dụng framework NeMo 2.0 của NVIDIA để tinh chỉnh mô hình
Đánh giá hiệu quả trên 1.000 ví dụ với sự tham gia của người đánh giá và mô hình AI cho thấy R1 1776 duy trì khả năng suy luận tương đương mô hình gốc
Perplexity AI cũng ra mắt:
- Mô hình Sonar cho người dùng Pro
- Tính năng Deep Research miễn phí với giới hạn 5 truy vấn/ngày cho người dùng thường và 500 truy vấn/ngày cho người dùng Pro

📌 Perplexity AI đã thành công trong việc loại bỏ kiểm duyệt từ mô hình DeepSeek-R1 thông qua phiên bản R1 1776 mã nguồn mở, được huấn luyện với 40.000 câu hỏi và 300 chủ đề nhạy cảm, đồng thời duy trì khả năng suy luận của mô hình gốc.

https://analyticsindiamag.com/ai-news-updates/perplexity-ai-open-sources-r1-1776-to-remove-censorship-from-deepseek-r1/

Không có file đính kèm.

Nguồn tham khảo

140

AI market AI mở-nguồn mở 2025-02-19 12:22:53

Meta tổ chức hội nghị LlamaCon đầu tiên về AI tạo sinh vào ngày 29/4

Meta công bố sẽ tổ chức hội nghị nhà phát triển đầu tiên về AI tạo sinh mang tên LlamaCon vào ngày 29/4/2025
Hội nghị tập trung chia sẻ về các phát triển AI nguồn mở mới nhất, giúp lập trình viên xây dựng ứng dụng và sản phẩm
Meta Connect - hội nghị thường niên của công ty vẫn diễn ra vào tháng 9/2025 như thông lệ
Nhiều doanh nghiệp lớn đang sử dụng Llama như Goldman Sachs, Nomura Holdings, AT&T, DoorDash và Accenture
Meta có ít nhất 25 đối tác lưu trữ Llama bao gồm Nvidia, Databricks, Groq, Dell và Snowflake
Công ty đang phải đối mặt với sự cạnh tranh từ DeepSeek - doanh nghiệp AI Trung Quốc, với mô hình AI nguồn mở mạnh hơn phiên bản Llama sắp ra mắt
Meta dự kiến đầu tư 80 tỷ USD cho các dự án AI trong năm 2025, bao gồm tuyển dụng nhân sự và xây dựng trung tâm dữ liệu AI mới
Mark Zuckerberg thông báo kế hoạch ra mắt nhiều mô hình Llama trong vài tháng tới, bao gồm mô hình "suy luận" và mô hình multimodal
Meta đang đối mặt với kiện tụng về việc huấn luyện mô hình trên tài liệu có bản quyền mà không được phép
Một số quốc gia EU buộc Meta hoãn hoặc hủy kế hoạch ra mắt mô hình do lo ngại về quyền riêng tư dữ liệu

📌 Meta đặt mục tiêu dẫn đầu AI nguồn mở trong 2025 với khoản đầu tư 80 tỷ USD, tổ chức LlamaCon đầu tiên vào tháng 4 nhưng phải đối mặt với cạnh tranh từ DeepSeek Trung Quốc và các rào cản pháp lý tại EU.

https://techcrunch.com/2025/02/18/meta-announces-llamacon-its-first-generative-ai-dev-conference/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI models 2025-02-18 00:28:59

Mistral ra mắt mô hình AI Saba tập trung vào ngôn ngữ và văn hóa Ả Rập

- Mistral, công ty khởi nghiệp AI có trụ sở tại Paris, vừa phát hành mô hình Mistral Saba tập trung vào các quốc gia nói tiếng Ả Rập

- Mistral Saba có 24 tỷ tham số, tương đương kích thước với Mistral Small 3 nhưng hoạt động hiệu quả hơn khi xử lý nội dung tiếng Ả Rập

- Mô hình này cũng hoạt động tốt với các ngôn ngữ có nguồn gốc từ Ấn Độ, đặc biệt là Tamil và Malayalam, do sự giao thoa văn hóa giữa Trung Đông và Nam Á

- Mistral Saba có thể triển khai thông qua API của Mistral hoặc tại chỗ, phù hợp với các công ty trong ngành năng lượng, tài chính và y tế

- Động thái này thể hiện chiến lược mở rộng thị trường Trung Đông của Mistral, đồng thời tạo cơ hội thu hút các nhà đầu tư từ khu vực này

- Mistral đã nhận đầu tư lớn từ các nhà đầu tư quốc tế, chủ yếu từ Mỹ như Lightspeed Venture Partners, Andreessen Horowitz và Salesforce Ventures

- Công ty cam kết phát triển hỗ trợ đa ngôn ngữ và dự kiến sẽ tập trung vào các ngôn ngữ khu vực khác trong tương lai

- Mistral định vị mình như một giải pháp thay thế quốc tế cho các công ty AI của Mỹ và Trung Quốc

📌 Mistral tung mô hình AI Saba 24 tỷ tham số phục vụ thị trường Trung Đông và Nam Á, khẳng định vị thế toàn cầu với khả năng xử lý đa ngôn ngữ, đồng thời mở ra cơ hội thu hút đầu tư từ khu vực này.

https://techcrunch.com/2025/02/17/mistral-releases-regional-model-focused-on-arabic-language-and-culture/

Không có file đính kèm.

Nguồn tham khảo

146

AI chính phủ AI mở-nguồn mở 2025-02-18 00:05:13

Các thành phố lớn ở Trung Quốc đồng loạt ứng dụng DeepSeek vào dịch vụ công

- Các chính quyền thành phố trên khắp Trung Quốc đang triển khai dịch vụ trực tuyến sử dụng DeepSeek, đối thủ cạnh tranh với OpenAI của Mỹ

- Theo báo Nanfang Daily, các quan chức cấp cao tại thành phố Châu Hải đã nghiên cứu báo cáo về Lương Văn Phong, người sáng lập DeepSeek trong một cuộc họp gần đây

- Nhiều thành phố lớn ở tỉnh Quảng Đông như Thâm Quyến, Quảng Châu và Đông Quan đã tích hợp DeepSeek vào dịch vụ hành chính công trực tuyến

- Quảng Châu đã bắt đầu sử dụng các mô hình AI R1 và V3 của DeepSeek trên cổng thông tin điện tử công cộng để cung cấp dịch vụ hiệu quả hơn

Các ứng dụng chính của DeepSeek tại Quảng Châu bao gồm:
- Giải thích chính sách cho người dân
- Xử lý đường dây nóng
- Tiếp nhận yêu cầu
- Cải thiện quy trình làm việc nội bộ
- Quản lý dịch vụ đô thị

- Các mô hình AI của DeepSeek đã thể hiện khả năng ngang bằng với các chatbot hàng đầu của Mỹ như ChatGPT của OpenAI

📌 DeepSeek đang nhanh chóng được các thành phố lớn của Trung Quốc ứng dụng vào dịch vụ công, với Quảng Châu dẫn đầu khi tích hợp mô hình R1 và V3. Động thái này cho thấy sự tin tưởng của chính quyền địa phương vào tiềm năng của startup AI nội địa.

https://www.scmp.com/news/china/politics/article/3299012/chinese-cities-launch-deepseek-driven-services-local-cadres-jump-ai-bandwagon

Không có file đính kèm.

Nguồn tham khảo

192

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2025-02-17 00:19:25

LLM mã nguồn mở xuất hiện trong lộ trình chủ quyền số của châu Âu

- OpenEuroLLM là dự án hợp tác giữa 20 tổ chức châu Âu, do Jan Hajič từ Đại học Charles Prague và Peter Sarlin từ Silo AI đồng lãnh đạo

- Ngân sách xây dựng mô hình là 37,4 triệu Euro, trong đó 20 triệu Euro từ Chương trình Châu Âu Số

- Dự án hướng tới phát triển mô hình ngôn ngữ hỗ trợ 24 ngôn ngữ chính thức của EU và các ngôn ngữ của quốc gia đang đàm phán gia nhập EU

- Các đối tác bao gồm trung tâm siêu máy tính EuroHPC tại Tây Ban Nha, Ý, Phần Lan và Hà Lan

- Thời gian triển khai: phiên bản đầu tiên dự kiến ra mắt giữa năm 2026, phiên bản cuối cùng vào năm 2028

- Dự án kế thừa từ High Performance Language Technologies (HPLT), với bộ dữ liệu được huấn luyện trên 4,5 petabyte dữ liệu web và hơn 20 tỷ tài liệu

- Các tổ chức tham gia đến từ nhiều quốc gia: Cộng hòa Séc, Hà Lan, Đức, Thụy Điển, Phần Lan, Na Uy cùng các công ty như Silo AI, Aleph Alpha, Ellamind

- Mục tiêu tạo ra mô hình nền tảng đa mục đích với độ chính xác cao và phiên bản nhỏ gọn cho ứng dụng biên

- Thách thức về định nghĩa "nguồn mở thực sự" khi cân bằng giữa chất lượng và khả năng chia sẻ dữ liệu huấn luyện

- Dự án song song với EuroLLM - một sáng kiến tương tự được EU tài trợ ra mắt vào tháng 9/2024

📌 Châu Âu đầu tư 37,4 triệu Euro vào OpenEuroLLM để phát triển AI nguồn mở hỗ trợ 24 ngôn ngữ EU, nhằm đạt chủ quyền số. Dự án tập hợp 20 tổ chức, kế thừa 4,5 petabyte dữ liệu, dự kiến ra mắt 2026-2028.

https://techcrunch.com/2025/02/16/open-source-llms-hit-europes-digital-sovereignty-roadmap/

LLM mã nguồn mở xuất hiện trong lộ trình chủ quyền số của châu Âu

Paul Sawers
6:30 sáng PST · Ngày 16 tháng 2 năm 2025

Các mô hình ngôn ngữ lớn (LLM) đã chính thức xuất hiện trong chương trình nghị sự về chủ quyền số của châu Âu vào tuần trước, khi có thông tin về một chương trình mới nhằm phát triển một loạt LLM “thực sự” mã nguồn mở, bao phủ tất cả các ngôn ngữ của Liên minh châu Âu (EU).

Điều này bao gồm 24 ngôn ngữ chính thức hiện tại của EU, cũng như ngôn ngữ của các quốc gia đang đàm phán để gia nhập thị trường EU, như Albania. Tư duy hướng đến tương lai chính là trọng tâm của dự án này.

OpenEuroLLM là sự hợp tác giữa khoảng 20 tổ chức, được đồng lãnh đạo bởi Jan Hajič, một nhà ngôn ngữ học tính toán từ Đại học Charles ở Prague, và Peter Sarlin, CEO kiêm đồng sáng lập phòng thí nghiệm AI Silo AI của Phần Lan, công ty mà AMD đã mua lại năm ngoái với giá 665 triệu USD.

Dự án này phù hợp với chiến lược rộng lớn hơn của châu Âu, trong đó ưu tiên chủ quyền số nhằm đưa các cơ sở hạ tầng và công cụ quan trọng về gần hơn. Hầu hết các tập đoàn điện toán đám mây lớn đang đầu tư vào cơ sở hạ tầng địa phương để đảm bảo dữ liệu của EU được lưu trữ trong khu vực, trong khi OpenAI gần đây đã công bố một dịch vụ mới cho phép khách hàng xử lý và lưu trữ dữ liệu tại châu Âu.

Ngoài ra, EU mới đây đã ký một thỏa thuận trị giá 11 tỷ USD để tạo ra một chòm sao vệ tinh độc lập nhằm cạnh tranh với Starlink của Elon Musk.

Vì vậy, OpenEuroLLM hoàn toàn phù hợp với định hướng này.

Tuy nhiên, ngân sách được công bố chỉ để xây dựng các mô hình này là 37,4 triệu EUR (~40,2 triệu USD), trong đó khoảng 20 triệu EUR (~21,5 triệu USD) đến từ Chương trình Kỹ thuật số châu Âu (Digital Europe Programme) – con số này rất nhỏ so với khoản đầu tư của các tập đoàn AI lớn. Ngân sách thực tế cao hơn khi tính đến các khoản tài trợ cho các công việc liên quan, và chi phí lớn nhất có lẽ là tài nguyên tính toán. Các đối tác của OpenEuroLLM bao gồm các trung tâm siêu máy tính EuroHPC tại Tây Ban Nha, Ý, Phần Lan và Hà Lan – và dự án EuroHPC rộng hơn có ngân sách khoảng 7 tỷ EUR (~7,5 tỷ USD).

Liệu có khả thi?

Số lượng lớn các bên tham gia, trải dài từ giới học thuật, nghiên cứu đến doanh nghiệp, khiến nhiều người đặt câu hỏi liệu mục tiêu của dự án có thực tế hay không.

Anastasia Stasenko, đồng sáng lập công ty LLM Pleias, hoài nghi rằng một liên minh gồm hơn 20 tổ chức có thể có cùng một mức độ tập trung như một công ty AI tư nhân nội địa.

“Những thành công gần đây của châu Âu trong AI đến từ các nhóm nhỏ, tập trung như Mistral AI và LightOn – những công ty thực sự kiểm soát những gì họ xây dựng," Stasenko viết. "Họ có trách nhiệm ngay lập tức với các lựa chọn của mình, từ tài chính, định vị thị trường cho đến danh tiếng.”

Xuất phát từ con số 0 hay có lợi thế?

Dự án OpenEuroLLM có thể coi là bắt đầu từ con số không, hoặc đã có nền tảng – tùy theo cách nhìn nhận.

Từ năm 2022, Hajič cũng đang điều phối dự án High Performance Language Technologies (HPLT), hướng đến việc phát triển bộ dữ liệu, mô hình và quy trình làm việc miễn phí và có thể tái sử dụng, sử dụng tính toán hiệu năng cao (HPC). Dự án này dự kiến kết thúc vào cuối năm 2025, nhưng theo Hajič, nó có thể được xem là tiền đề cho OpenEuroLLM, vì hầu hết các đối tác của HPLT (ngoại trừ các đối tác Anh) đều tham gia vào dự án mới này.

“Dự án này thực chất chỉ là một sự mở rộng với sự tham gia rộng rãi hơn, nhưng tập trung hơn vào LLM tạo sinh,” Hajič nói. “Vì vậy, chúng tôi không bắt đầu từ con số không về mặt dữ liệu, chuyên môn, công cụ và kinh nghiệm tính toán. Chúng tôi đã tập hợp được những người có kinh nghiệm – nên có thể bắt kịp nhanh chóng.”

Hajič kỳ vọng phiên bản đầu tiên sẽ được phát hành vào giữa năm 2026, với phiên bản cuối cùng ra mắt vào năm 2028. Tuy nhiên, những mục tiêu này vẫn có vẻ đầy tham vọng, đặc biệt khi hiện tại dự án chỉ mới có một hồ sơ GitHub sơ khai.

“Ở khía cạnh đó, chúng tôi đang bắt đầu từ con số không – dự án mới chính thức khởi động vào thứ Bảy [ngày 1 tháng 2],” Hajič nói. “Nhưng chúng tôi đã chuẩn bị trong một năm rồi [quy trình đấu thầu mở vào tháng 2 năm 2024].”

Các bên tham gia và sự vắng mặt của Mistral AI

Từ giới học thuật và nghiên cứu, dự án có sự tham gia của các tổ chức từ Séc, Hà Lan, Đức, Thụy Điển, Phần Lan và Na Uy, bên cạnh các trung tâm EuroHPC. Từ khu vực doanh nghiệp, các công ty như Silo AI (Phần Lan, thuộc sở hữu của AMD), Aleph Alpha (Đức), Ellamind (Đức), Prompsit Language Engineering (Tây Ban Nha) và LightOn (Pháp) cũng tham gia.

Một điểm đáng chú ý là Mistral AI – startup AI kỳ lân của Pháp, vốn tự định vị là đối thủ mã nguồn mở của OpenAI – không có mặt trong danh sách.

Mặc dù không ai từ Mistral AI phản hồi TechCrunch để bình luận, Hajič xác nhận rằng ông đã cố gắng liên hệ với startup này nhưng không có kết quả.

“Tôi đã tiếp cận họ, nhưng vẫn chưa có cuộc thảo luận tập trung nào về việc tham gia của họ,” Hajič cho biết.

Dự án vẫn có thể thu hút thêm đối tác mới trong khuôn khổ chương trình tài trợ của EU, nhưng sẽ giới hạn trong các tổ chức EU. Điều này có nghĩa là các tổ chức từ Anh và Thụy Sĩ sẽ không thể tham gia, trái ngược với chương trình nghiên cứu Horizon, mà Anh đã tái gia nhập vào năm 2023 sau thời gian đình trệ do Brexit, và từng cấp vốn cho HPLT.

Xây dựng nền tảng

Mục tiêu hàng đầu của dự án, theo khẩu hiệu của nó, là tạo ra: "Một loạt mô hình nền tảng cho AI minh bạch tại châu Âu." Ngoài ra, các mô hình này phải bảo tồn "sự đa dạng ngôn ngữ và văn hóa" của tất cả các ngôn ngữ trong EU — hiện tại và tương lai.

Việc này sẽ được hiện thực hóa như thế nào vẫn đang được xác định, nhưng nhiều khả năng dự án sẽ tập trung vào một LLM đa ngôn ngữ cốt lõi, phục vụ các nhiệm vụ tổng quát đòi hỏi độ chính xác cao. Đồng thời, cũng có thể có các phiên bản nhỏ hơn, được "lượng tử hóa" để tối ưu hóa cho các ứng dụng biên (edge computing), nơi tốc độ và hiệu suất quan trọng hơn.

“Chúng tôi vẫn cần lập kế hoạch chi tiết về vấn đề này,” Hajič nói. “Chúng tôi muốn mô hình có kích thước nhỏ nhất có thể nhưng vẫn đạt chất lượng cao nhất. Chúng tôi không muốn tung ra một sản phẩm chưa hoàn thiện, vì từ góc độ châu Âu, đây là một dự án quan trọng với rất nhiều tiền từ Ủy ban châu Âu – tiền công.”

Mặc dù mục tiêu là làm cho mô hình hoạt động tốt nhất có thể trên tất cả các ngôn ngữ, nhưng đạt được sự cân bằng tuyệt đối giữa các ngôn ngữ sẽ là một thách thức.

“Đó là mục tiêu, nhưng việc có thể làm tốt đến đâu với những ngôn ngữ có tài nguyên số khan hiếm vẫn là một câu hỏi,” Hajič nói. “Nhưng đó cũng là lý do chúng tôi muốn có các bộ đánh giá thực sự đại diện cho các ngôn ngữ này, thay vì chỉ dựa vào các tiêu chí đánh giá không phản ánh đúng thực tế ngôn ngữ và văn hóa đằng sau chúng.”

Về dữ liệu, phần lớn công việc từ dự án HPLT trước đó sẽ phát huy tác dụng, với phiên bản 2.0 của bộ dữ liệu đã được phát hành bốn tháng trước. Bộ dữ liệu này được huấn luyện trên 4,5 petabyte dữ liệu quét web và hơn 20 tỷ tài liệu. Hajič cho biết họ sẽ bổ sung dữ liệu từ Common Crawl (kho dữ liệu quét web mã nguồn mở).

Định nghĩa về mã nguồn mở

Trong phần mềm truyền thống, cuộc tranh luận giữa mã nguồn mở và độc quyền thường xoay quanh định nghĩa thực sự của "mã nguồn mở." Vấn đề này thường được giải quyết bằng cách tham chiếu đến tiêu chuẩn của Open Source Initiative (OSI) – tổ chức định hướng ngành về các giấy phép mã nguồn mở hợp lệ.

Gần đây, OSI đã đưa ra định nghĩa về AI mã nguồn mở, nhưng điều này không làm hài lòng tất cả mọi người. Những người ủng hộ AI mã nguồn mở lập luận rằng không chỉ các mô hình nên được công khai, mà cả bộ dữ liệu, mô hình tiền huấn luyện, trọng số – tất cả mọi thứ. Tuy nhiên, định nghĩa của OSI không bắt buộc công khai dữ liệu huấn luyện, vì AI thường được huấn luyện trên dữ liệu độc quyền hoặc dữ liệu có hạn chế về phân phối lại.

Tương tự, OpenEuroLLM đang đối mặt với những tranh luận này. Mặc dù dự án đặt mục tiêu “thực sự mở”, nhưng có thể vẫn phải thỏa hiệp để đảm bảo chất lượng.

“Mục tiêu là công khai tất cả. Nhưng tất nhiên, sẽ có một số hạn chế,” Hajič nói. “Chúng tôi muốn tạo ra các mô hình có chất lượng cao nhất có thể, và theo chỉ thị bản quyền của EU, chúng tôi có thể sử dụng bất kỳ dữ liệu nào có thể tiếp cận được. Một số dữ liệu không thể phân phối lại, nhưng có thể lưu trữ để kiểm tra sau này.”

Điều này có nghĩa là một số dữ liệu huấn luyện của OpenEuroLLM có thể không được công khai hoàn toàn, nhưng sẽ có sẵn cho các cơ quan kiểm toán khi cần, theo yêu cầu của Đạo luật AI của EU đối với các hệ thống AI có rủi ro cao.

“Chúng tôi hy vọng rằng phần lớn dữ liệu sẽ mở, đặc biệt là dữ liệu từ Common Crawl,” Hajič nói. “Chúng tôi muốn công khai tất cả, nhưng còn phải chờ xem. Dù thế nào đi nữa, chúng tôi vẫn phải tuân thủ các quy định về AI.”

Hai dự án trùng lặp?

Một trong những chỉ trích xuất hiện ngay sau khi OpenEuroLLM được công bố là việc châu Âu đã có một dự án rất giống ra mắt chỉ vài tháng trước đó.

EuroLLM, được công bố vào tháng 9 năm ngoái và tiếp tục ra mắt một mô hình khác vào tháng 12, cũng do EU đồng tài trợ và có sự tham gia của 9 đối tác, bao gồm Đại học Edinburgh và công ty Unbabel.

EuroLLM có mục tiêu tương tự như OpenEuroLLM:

"Xây dựng một mô hình ngôn ngữ lớn mã nguồn mở cho châu Âu, hỗ trợ 24 ngôn ngữ chính thức của EU và một số ngôn ngữ quan trọng chiến lược khác."

Andre Martins, trưởng bộ phận nghiên cứu tại Unbabel, đã lên tiếng trên mạng xã hội về sự trùng lặp này, cho rằng OpenEuroLLM đã sử dụng một cái tên đã tồn tại.

"Tôi hy vọng các cộng đồng khác nhau sẽ hợp tác cởi mở, chia sẻ chuyên môn, và không cố gắng 'phát minh lại bánh xe' mỗi khi có một dự án mới được tài trợ," Martins viết.

Hajič gọi tình huống này là "đáng tiếc," nhưng hy vọng hai dự án có thể hợp tác, dù thừa nhận rằng OpenEuroLLM bị hạn chế trong việc hợp tác với các tổ chức ngoài EU, bao gồm các trường đại học của Anh.

Khoảng cách tài trợ

Sự xuất hiện của DeepSeek từ Trung Quốc, cùng với tỷ lệ chi phí-hiệu suất mà mô hình này hứa hẹn, đã khiến một số người tin rằng có thể làm được nhiều hơn với ngân sách ít hơn. Tuy nhiên, trong vài tuần qua, nhiều người đã đặt câu hỏi về chi phí thực sự để xây dựng DeepSeek.

Peter Sarlin, đồng lãnh đạo kỹ thuật của OpenEuroLLM, nói với TechCrunch:

“Với DeepSeek, thực sự chúng ta biết rất ít về những gì đã được đầu tư để xây dựng nó.”

Dù vậy, Sarlin tin rằng OpenEuroLLM sẽ có đủ tài trợ, vì phần lớn ngân sách chủ yếu dành cho con người. Phần tốn kém nhất khi xây dựng AI là tài nguyên tính toán, nhưng phần lớn chi phí này sẽ được EuroHPC hỗ trợ.

“Có thể nói rằng OpenEuroLLM thực sự có ngân sách khá lớn,” Sarlin nói. “EuroHPC đã đầu tư hàng tỷ EUR vào AI và cơ sở hạ tầng tính toán, và sẽ tiếp tục đầu tư thêm trong những năm tới.”

Ngoài ra, OpenEuroLLM không nhắm đến việc phát triển một sản phẩm thương mại dành cho người tiêu dùng hay doanh nghiệp. Dự án chỉ tập trung vào mô hình nền tảng, giúp các công ty châu Âu xây dựng ứng dụng AI của riêng mình.

“Chúng tôi không đang tạo ra một chatbot hay trợ lý AI – đó sẽ là một dự án sản phẩm đòi hỏi nhiều nỗ lực hơn, giống như ChatGPT đã làm rất tốt,” Sarlin nói. “Chúng tôi đang cung cấp một mô hình nền tảng mở, đóng vai trò là hạ tầng AI để các công ty châu Âu xây dựng trên đó. Chúng tôi biết cần gì để xây dựng mô hình – và không nhất thiết phải tốn hàng tỷ USD.”

Chủ quyền số

Cuối cùng, OpenEuroLLM không phải là về cạnh tranh với Big Tech hay các startup AI tỷ USD; mục tiêu cốt lõi vẫn là chủ quyền số – xây dựng mô hình mã nguồn mở (phần lớn), bởi châu Âu, cho châu Âu.

“Ngay cả khi chúng tôi không phải là mô hình số một, nhưng nếu có một mô hình 'tốt', thì ít nhất đó vẫn sẽ là một mô hình với tất cả các thành phần đặt tại châu Âu," Hajič nói. “Đó vẫn sẽ là một kết quả tích cực.”

Không có file đính kèm.

Nguồn tham khảo

104

AI data AI mở-nguồn mở 2025-02-16 09:34:47

Liệu chữ Hán có phải là chìa khóa bí mật đằng sau thành công của DeepSeek?

- DeepSeek, một công ty khởi nghiệp AI của Trung Quốc, đang thu hút sự chú ý toàn cầu với mô hình ngôn ngữ lớn nguồn mở có hiệu suất cao và tiết kiệm chi phí

- Các chuyên gia trong ngành cho rằng việc tích hợp chữ Hán trong giai đoạn tiền đào tạo là yếu tố quan trọng tạo nên thành công của mô hình

- Theo chuyên gia viễn thông Xiang Ligang, chữ Hán có khả năng truyền tải thông tin tối đa với chi phí tối thiểu

- Đặc tính đa phương thức của chữ Hán, kết hợp yếu tố hình ảnh với ý nghĩa, cung cấp nguồn tư liệu học tập phong phú cho các mô hình AI

- Mặc dù DeepSeek chưa công bố nguồn dữ liệu đào tạo, các chuyên gia phỏng đoán dữ liệu tiếng Trung bao gồm nhiều loại tài liệu:
+ Văn học cổ điển
+ Biệt ngữ internet
+ Bài báo học thuật
+ Tài liệu chính phủ
+ Phương ngữ

- Sự đa dạng trong dữ liệu đào tạo tạo nền tảng ngôn ngữ toàn diện, góp phần nâng cao hiệu suất của mô hình

📌 DeepSeek đang chứng minh tiềm năng vượt trội của mô hình ngôn ngữ lớn nguồn mở dựa trên nền tảng chữ Hán. Đặc tính mật độ thông tin cao và tính đa phương thức của chữ Hán giúp tối ưu hóa hiệu suất và chi phí trong xử lý AI.

https://www.malaymail.com/news/tech-gadgets/2025/02/15/deepseeks-rise-is-the-chinese-language-the-secret-ingredient-to-its-ai-edge/166793

Không có file đính kèm.

Nguồn tham khảo

103

AI market AI mở-nguồn mở 2025-02-13 17:48:14

Khám phá cách DeepSeek phát triển AI với chi phí thấp hơn nhiều so với các đối thủ

- DeepSeek, startup Trung Quốc, đã gây chấn động thị trường tài chính Mỹ khi công bố xây dựng hệ thống AI mạnh mẽ chỉ với 2.000 chip chuyên dụng, thay vì 16.000 chip như thông thường

- Chi phí năng lực tính toán thô chỉ khoảng 6 triệu USD, bằng 1/10 chi phí của Meta cho công nghệ AI mới nhất

DeepSeek áp dụng phương pháp "mixture of experts" bằng cách:
- Chia hệ thống thành nhiều neural network nhỏ chuyên biệt (khoảng 100 hệ thống)
- Mỗi network tập trung vào một lĩnh vực cụ thể như thơ ca, lập trình, sinh học
- Kết hợp với một hệ thống "generalist" để điều phối tương tác giữa các expert

Thủ thuật tối ưu hóa bộ nhớ:
- Nén số liệu vào 8 bit thay vì 16 bit thông thường
- Khi nhân các số, kết quả được mở rộng thành 32 bit để tăng độ chính xác
- Giảm độ chính xác của từng phép tính nhưng vẫn đủ hiệu quả

Các yếu tố then chốt khác:
- Kỹ sư DeepSeek có kỹ năng viết mã tinh vi để tối ưu GPU
- Công ty chấp nhận rủi ro cao trong thử nghiệm
- Chi phí 6 triệu USD chỉ tính cho lần huấn luyện cuối cùng

📌 Startup Trung Quốc DeepSeek đã cách mạng hóa việc phát triển AI bằng cách giảm 90% chi phí so với Meta, chỉ dùng 2.000 chip thay vì 16.000, nhờ kết hợp phương pháp "mixture of experts" với các thủ thuật tối ưu hóa bộ nhớ sáng tạo.

https://www.nytimes.com/2025/02/12/technology/deepseek-ai-chip-costs.html

DeepSeek đã xây dựng AI với chi phí thấp hơn như thế nào?

Công ty khởi nghiệp Trung Quốc đã sử dụng nhiều kỹ thuật công nghệ, bao gồm một phương pháp có tên "mixture of experts," để giảm đáng kể chi phí phát triển công nghệ.

Cade Metz
Tường thuật từ San Francisco
12 tháng 2, 2025, 5:02 sáng ET

Tháng trước, thị trường tài chính Mỹ chao đảo sau khi một công ty khởi nghiệp Trung Quốc có tên DeepSeek tuyên bố đã xây dựng một trong những hệ thống trí tuệ nhân tạo mạnh nhất thế giới mà chỉ cần sử dụng số lượng chip máy tính ít hơn nhiều so với những gì nhiều chuyên gia từng nghĩ là có thể.

Các công ty AI thường huấn luyện chatbot của họ bằng cách sử dụng siêu máy tính được trang bị ít nhất 16.000 chip chuyên dụng. Nhưng DeepSeek cho biết họ chỉ cần khoảng 2.000 chip.

Trong một bài báo nghiên cứu được công bố ngay sau Giáng sinh, các kỹ sư của DeepSeek đã trình bày nhiều kỹ thuật công nghệ giúp họ giảm đáng kể chi phí phát triển hệ thống. Theo ước tính, công ty chỉ tốn khoảng 6 triệu USD cho năng lực tính toán thô, tức chỉ bằng khoảng 1/10 so với số tiền Meta đã chi để xây dựng công nghệ AI mới nhất của họ.

DeepSeek đã làm gì? Dưới đây là những điều cần biết.

Công nghệ AI được xây dựng như thế nào?

Các công nghệ AI hàng đầu hiện nay dựa trên cái mà các nhà khoa học gọi là mạng nơ-ron—hệ thống toán học học hỏi kỹ năng bằng cách phân tích một lượng dữ liệu khổng lồ.

Những hệ thống mạnh nhất mất nhiều tháng để phân tích gần như toàn bộ văn bản tiếng Anh trên internet, cùng với hàng loạt hình ảnh, âm thanh và các dữ liệu đa phương tiện khác. Quá trình này đòi hỏi một lượng lớn sức mạnh tính toán.

Khoảng 15 năm trước, các nhà nghiên cứu AI nhận ra rằng GPU (graphics processing unit - bộ xử lý đồ họa) là một công cụ hiệu quả để thực hiện loại phân tích dữ liệu này. Ban đầu, các công ty như Nvidia của Thung lũng Silicon thiết kế GPU để xử lý đồ họa trong trò chơi điện tử. Nhưng hóa ra, GPU cũng rất phù hợp để thực hiện các phép toán chạy mạng nơ-ron.

Khi các công ty lắp đặt ngày càng nhiều GPU vào trung tâm dữ liệu của họ, các hệ thống AI có thể phân tích dữ liệu nhanh hơn và nhiều hơn.

Tuy nhiên, các GPU tốt nhất có giá khoảng 40.000 USD mỗi chiếc và tiêu thụ một lượng điện năng khổng lồ. Việc truyền dữ liệu giữa các GPU thậm chí còn tốn điện hơn cả quá trình vận hành chúng.

DeepSeek đã giảm chi phí bằng cách nào?

DeepSeek áp dụng nhiều kỹ thuật khác nhau. Đáng chú ý nhất là họ sử dụng một phương pháp có tên "mixture of experts" (hỗn hợp chuyên gia).

Thông thường, các công ty AI tạo ra một mạng nơ-ron duy nhất để học tất cả các quy luật từ toàn bộ dữ liệu trên internet. Điều này rất tốn kém vì đòi hỏi một lượng dữ liệu khổng lồ phải di chuyển liên tục giữa các GPU.

Ví dụ, nếu một GPU đang học cách viết thơ, trong khi một GPU khác học cách viết chương trình máy tính, cả hai vẫn phải trao đổi dữ liệu với nhau—trong trường hợp có sự liên quan nào đó giữa thơ ca và lập trình.

Với "mixture of experts," các nhà nghiên cứu cố gắng giải quyết vấn đề này bằng cách chia hệ thống thành nhiều mạng nơ-ron nhỏ hơn: một mạng chuyên về thơ, một mạng chuyên về lập trình, một mạng chuyên về sinh học, một mạng chuyên về vật lý, v.v. Hệ thống có thể bao gồm 100 "chuyên gia" như vậy, mỗi chuyên gia chỉ tập trung vào lĩnh vực riêng của mình.

Nhiều công ty từng gặp khó khăn với phương pháp này, nhưng DeepSeek đã làm tốt hơn bằng cách kết hợp các hệ thống "chuyên gia" nhỏ với một hệ thống "tổng quát."

Dù các chuyên gia vẫn cần trao đổi thông tin với nhau, nhưng hệ thống tổng quát—vốn có hiểu biết chung về mọi lĩnh vực nhưng không chuyên sâu—có thể giúp điều phối sự tương tác giữa các chuyên gia.

Cách hoạt động này tương tự như một tổng biên tập điều hành một tòa soạn, nơi có nhiều phóng viên chuyên viết về các lĩnh vực khác nhau. Tổng biên tập không phải là chuyên gia về từng lĩnh vực, nhưng có vai trò điều phối và đảm bảo mọi thứ vận hành trơn tru.

Và phương pháp đó hiệu quả hơn?

Hiệu quả hơn rất nhiều. Nhưng đó không phải là tất cả những gì DeepSeek đã làm. Họ còn tận dụng một thủ thuật đơn giản liên quan đến số thập phân—một khái niệm mà bất kỳ ai từng học toán tiểu học đều có thể hiểu.

Có liên quan đến toán học sao?

Hãy nhớ lại bài học về số pi (π) mà giáo viên toán từng giảng. Pi là một số vô hạn: 3,14159265358979…

Có thể sử dụng π để thực hiện các phép tính hữu ích, như tính chu vi hình tròn. Nhưng khi làm những phép tính đó, thường chỉ cần rút gọn π xuống vài chữ số thập phân, chẳng hạn 3,14. Dù không hoàn toàn chính xác, nhưng con số này vẫn đủ để đưa ra một kết quả gần đúng.

DeepSeek đã làm điều tương tự—nhưng ở quy mô lớn hơn rất nhiều—trong quá trình huấn luyện AI của họ.

Mô hình toán học giúp mạng nơ-ron nhận diện các mẫu trong văn bản thực chất chỉ là phép nhân—một lượng khổng lồ các phép nhân, kéo dài hàng tháng trời trên hàng nghìn con chip máy tính.

Thông thường, các chip xử lý các phép nhân này bằng cách sử dụng 16 bit bộ nhớ cho mỗi con số. Nhưng DeepSeek đã nén mỗi con số xuống chỉ còn 8 bit—tức là một nửa không gian bộ nhớ. Về bản chất, họ đã lược bỏ một số chữ số thập phân của mỗi con số.

Điều đó có làm giảm độ chính xác không?

Đúng, mỗi phép tính sẽ kém chính xác hơn một chút. Nhưng điều đó không quan trọng. Các phép tính này vẫn đủ chính xác để tạo ra một mạng nơ-ron mạnh mẽ.

Chỉ có vậy thôi sao?

Không hẳn. DeepSeek còn bổ sung một thủ thuật khác.

Sau khi nén mỗi số xuống 8 bit, DeepSeek đã chọn một cách khác khi thực hiện phép nhân giữa các số này. Khi tính toán kết quả của từng phép nhân—một bước quan trọng giúp xác định cách mạng nơ-ron hoạt động—họ đã mở rộng kết quả đó lên 32 bit bộ nhớ. Nói cách khác, họ giữ lại nhiều chữ số thập phân hơn trong đáp án cuối cùng, giúp kết quả chính xác hơn.

Vậy bất kỳ học sinh trung học nào cũng có thể làm được điều này?

Không hẳn. Các kỹ sư của DeepSeek đã chứng minh trong bài báo nghiên cứu rằng họ cũng rất giỏi trong việc viết mã máy tính tinh vi, giúp GPU hoạt động hiệu quả hơn. Họ biết cách tối ưu từng phần nhỏ của quá trình tính toán để tận dụng tối đa sức mạnh của chip.

Rất ít người có kỹ năng như vậy. Nhưng các phòng thí nghiệm AI lớn trên thế giới đều có đội ngũ kỹ sư tài năng đủ khả năng bắt kịp những gì DeepSeek đã làm.

Vậy tại sao các công ty khác chưa làm điều này?

Một số phòng thí nghiệm AI có thể đã sử dụng một phần các kỹ thuật này. Các công ty như OpenAI không phải lúc nào cũng công khai toàn bộ những gì họ đang làm.

Nhưng nhiều người rõ ràng đã bất ngờ trước công nghệ của DeepSeek. Những gì công ty khởi nghiệp này làm không hề dễ dàng.

Việc thử nghiệm để tìm ra một đột phá như vậy cần hàng triệu, thậm chí hàng tỷ USD tiền điện.

Nói cách khác, nó đòi hỏi một mức độ rủi ro rất lớn.

“Bạn phải đầu tư rất nhiều tiền để thử nghiệm những ý tưởng mới—và thường thì chúng thất bại,” Tim Dettmers, một nhà nghiên cứu tại Viện Trí tuệ Nhân tạo Allen ở Seattle, người chuyên về tối ưu hóa AI và từng làm việc tại Meta, cho biết.

“Đó là lý do tại sao chúng ta không thấy nhiều đổi mới: Mọi người sợ mất hàng triệu USD chỉ để thử một ý tưởng có thể không hiệu quả,” ông nói thêm.

Nhiều chuyên gia cũng chỉ ra rằng 6 triệu USD mà DeepSeek công bố chỉ là số tiền họ chi cho lần huấn luyện cuối cùng của hệ thống.

Trong bài báo nghiên cứu, các kỹ sư DeepSeek thừa nhận rằng họ đã chi thêm tiền cho nghiên cứu và thử nghiệm trước khi tiến hành huấn luyện chính thức. Nhưng điều này cũng đúng với bất kỳ dự án AI tiên tiến nào khác.

DeepSeek đã thử nghiệm—và thành công. Giờ đây, vì công ty khởi nghiệp Trung Quốc này đã chia sẻ phương pháp của họ với cộng đồng nghiên cứu AI, những kỹ thuật này có thể sẽ giúp giảm đáng kể chi phí xây dựng AI trong tương lai.

How Did DeepSeek Build Its A.I. With Less Money?
The Chinese start-up used several technological tricks, including a method called “mixture of experts,” to significantly reduce the cost of building the technology.

By Cade Metz
Reporting from San Francisco
Feb. 12, 2025, 5:02 a.m. ET

Last month, U.S. financial markets tumbled after a Chinese start-up called DeepSeek said it had built one of the world’s most powerful artificial intelligence systems using far fewer computer chips than many experts thought possible.
A.I. companies typically train their chatbots using supercomputers packed with 16,000 specialized chips or more. But DeepSeek said it needed only about 2,000.
As DeepSeek engineers detailed in a research paper published just after Christmas, the start-up used several technological tricks to significantly reduce the cost of building its system. Its engineers needed only about $6 million in raw computing power, roughly one-tenth of what Meta spent in building its latest A.I. technology.
What exactly did DeepSeek do? Here is a guide.
How are A.I. technologies built?
The leading A.I. technologies are based on what scientists call neural networks, mathematical systems that learn their skills by analyzing enormous amounts of data.
The most powerful systems spend months analyzing just about all the English text on the internet as well as many images, sounds and other multimedia. That requires enormous amounts of computing power.
About 15 years ago, A.I. researchers realized that specialized computer chips called graphics processing units, or GPUs, were an effective way of doing this kind of data analysis. Companies like the Silicon Valley chipmaker Nvidia originally designed these chips to render graphics for computer video games. But GPUs also had a knack for running the math that powered neural networks.
As companies packed more GPUs into their computer data centers, their A.I. systems could analyze more data.
But the best GPUs cost around $40,000, and they need huge amounts of electricity. Sending the data between chips can use more electrical power than running the chips themselves.
How was DeepSeek able to reduce costs?
It did many things. Most notably, it embraced a method called “mixture of experts.”
Companies usually created a single neural network that learned all the patterns in all the data on the internet. This was expensive, because it required enormous amounts of data to travel between GPU chips.
If one chip was learning how to write a poem and another was learning how to write a computer program, they still needed to talk to each other, just in case there was some overlap between poetry and programming.
With the mixture of experts method, researchers tried to solve this problem by splitting the system into many neural networks: one for poetry, one for computer programming, one for biology, one for physics and so on. There might be 100 of these smaller “expert” systems. Each expert could concentrate on its particular field.
Many companies have struggled with this method, but DeepSeek was able to do it well. Its trick was to pair those smaller “expert” systems with a “generalist” system.
The experts still needed to trade some information with one another, and the generalist — which had a decent but not detailed understanding of each subject — could help coordinate interactions between the experts.
It is a bit like an editor’s overseeing a newsroom filled with specialist reporters.

And that is more efficient?
Much more. But that is not the only thing DeepSeek did. It also mastered a simple trick involving decimals that anyone who remembers his or her elementary school math class can understand.
There is math involved in this?
Remember your math teacher explaining the concept of pi. Pi, also denoted as π, is a number that never ends: 3.14159265358979 …
You can use π to do useful calculations, like determining the circumference of a circle. When you do those calculations, you shorten π to just a few decimals: 3.14. If you use this simpler number, you get a pretty good estimation of a circle’s circumference.
DeepSeek did something similar — but on a much larger scale — in training its A.I. technology.
The math that allows a neural network to identify patterns in text is really just multiplication — lots and lots and lots of multiplication. We’re talking months of multiplication across thousands of computer chips.
Typically, chips multiply numbers that fit into 16 bits of memory. But DeepSeek squeezed each number into only 8 bits of memory — half the space. In essence, it lopped several decimals from each number.
This meant that each calculation was less accurate. But that didn’t matter. The calculations were accurate enough to produce a really powerful neural network.
That’s it?
Well, they added another trick.
After squeezing each number into 8 bits of memory, DeepSeek took a different route when multiplying those numbers together. When determining the answer to each multiplication problem — making a key calculation that would help decide how the neural network would operate — it stretched the answer across 32 bits of memory. In other words, it kept many more decimals. It made the answer more precise.
So any high school student could have done this?
Well, no. The DeepSeek engineers showed in their paper that they were also very good at writing the very complicated computer code that tells GPUs what to do. They knew how to squeeze even more efficiency out of these chips.
Few people have that kind of skill. But serious A.I. labs have the talented engineers needed to match what DeepSeek has done.
Then why didn’t they do this already?
Some A.I. labs may be using at least some of the same tricks already. Companies like OpenAI do not always reveal what they are doing behind closed doors.
But others were clearly surprised by DeepSeek’s work. Doing what the start-up did is not easy. The experimentation needed to find a breakthrough like this involves millions of dollars — if not billions — in electrical power.
In other words, it requires enormous amounts of risk.
“You have to put a lot of money on the line to try new things — and often, they fail,” said Tim Dettmers, a researcher at the Allen Institute for Artificial Intelligence in Seattle who specializes in building efficient A.I. systems and previously worked as an A.I. researcher at Meta.
“That is why we don’t see much innovation: People are afraid to lose many millions just to try something that doesn’t work,” he added.
Many pundits pointed out that DeepSeek’s $6 million covered only what the start-up spent when training the final version of the system. In their paper, the DeepSeek engineers said they had spent additional funds on research and experimentation before the final training run. But the same is true of any cutting-edge A.I. project.
DeepSeek experimented, and it paid off. Now, because the Chinese start-up has shared its methods with other A.I. researchers, its technological tricks are poised to significantly reduce the cost of building A.I.

Cade Metz writes about artificial intelligence, driverless cars, robotics, virtual reality and other emerging areas of technology. More about Cade Metz

Không có file đính kèm.

Nguồn tham khảo

130

AI mở-nguồn mở 2025-02-11 21:08:51

Giám đốc AI Meta tuyên bố châu Âu nên duy trì mô hình AI nguồn mở

- Yann Lecun, giám đốc khoa học AI của Meta, tuyên bố châu Âu nên duy trì mô hình AI nguồn mở để tránh tụt hậu trong cuộc đua công nghệ

- Phát biểu tại hội nghị AI Action Summit ở Paris, Lecun cho rằng việc một số quốc gia châu Âu đang cố gắng biến mô hình nguồn mở trở nên bất hợp pháp là "sai lầm lớn"

- Ông nhấn mạnh nghiên cứu bí mật sẽ dẫn đến tụt hậu, trong khi mô hình nguồn mở cho phép mọi người hưởng lợi vì tiến độ phát triển nhanh hơn

- DeepSeek, startup AI từ Trung Quốc, đã gây chấn động khi phát hành mô hình R1 nguồn mở vào tháng 1/2025, vượt trội so với các đối thủ như OpenAI và Meta

- Meta phát triển mô hình Llama theo hướng nguồn mở, trong khi OpenAI đã chuyển từ nguồn mở sang mô hình đóng

- Các công ty AI châu Âu như Mistral (Pháp) và Aleph Alpha (Đức) sử dụng mô hình nguồn mở và phản đối đề xuất quy định của châu Âu về kiểm soát nhà phát triển mô hình nền tảng

- Luật AI của Liên minh châu Âu được thông qua năm 2024 nhằm kiểm soát rủi ro từ công nghệ AI mạnh mẽ

📌 Châu Âu đang đứng trước ngã ba đường trong việc quản lý AI: một bên là áp đặt quy định chặt chẽ lên mô hình nguồn mở, bên kia là tự do phát triển để cạnh tranh với Mỹ và Trung Quốc. DeepSeek đã chứng minh sức mạnh của mô hình nguồn mở khi vượt qua cả OpenAI và Meta.

https://www.businessinsider.com/europe-should-keep-open-source-ai-legal-yann-lecun-2025-2

Không có file đính kèm.

Nguồn tham khảo

AI chips-hardware-compute AI mở-nguồn mở 2025-02-11 20:44:10

CEO Baidu: Cần tiếp tục đầu tư hạ tầng AI dù DeepSeek đã chứng minh hiệu quả tiết kiệm

- Robin Li, CEO Baidu phát biểu tại Hội nghị thượng đỉnh chính phủ thế giới ở Dubai ngày 11/2/2025, nhấn mạnh việc đầu tư vào trung tâm dữ liệu và cơ sở hạ tầng đám mây vẫn rất cần thiết

- DeepSeek, một startup AI của Trung Quốc, gần đây gây chú ý khi phát triển các mô hình ngôn ngữ có hiệu suất tương đương với các hệ thống hàng đầu như OpenAI's GPT nhưng sử dụng ít năng lực tính toán hơn đáng kể

- Baidu là một trong những công ty Trung Quốc đầu tiên ra mắt sản phẩm AI sau khi ChatGPT được phát hành cuối năm 2022. Tuy nhiên, mô hình ngôn ngữ lớn Ernie của công ty, được cho là có khả năng tương đương GPT-4, chưa được người dùng đón nhận rộng rãi

- Trước đây, Li từng tuyên bố mạnh mẽ rằng khó có thể xuất hiện một công ty như OpenAI từ Trung Quốc và ủng hộ mô hình đóng là con đường duy nhất khả thi cho phát triển AI

- Tại hội nghị, Li thừa nhận sự xuất hiện bất ngờ của DeepSeek cho thấy bản chất khó đoán của đổi mới công nghệ

- Các hạn chế về năng lực tính toán đã thúc đẩy các công ty Trung Quốc đổi mới để giảm chi phí

- Li cũng thay đổi quan điểm về phát triển nguồn đóng, giờ đây công nhận cách tiếp cận nguồn mở có thể thúc đẩy việc áp dụng AI nhanh hơn

📌 Từ chỗ ủng hộ mạnh mẽ mô hình đóng, CEO Baidu Robin Li đã thay đổi quan điểm về AI nguồn mở sau thành công của DeepSeek. Mặc dù vậy, ông vẫn khẳng định cần tiếp tục đầu tư lớn vào cơ sở hạ tầng để phát triển các mô hình AI vượt trội.

https://www.reuters.com/technology/baidu-ceo-says-more-ai-spend-still-needed-despite-deepseeks-success-2025-02-11/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI market 2025-02-10 14:52:25

CEO của Arm nói về tương lai của AI và lý do không lo sợ DeepSeek

- Rene Haas, CEO của Arm Holdings, đã tái định hình mô hình kinh doanh từ việc thu phí trước qua mô hình tiền bản quyền, giúp công ty đạt giá trị vốn hóa 175 tỷ USD.
- DeepSeek, startup AI đến từ Trung Quốc, gây kinh ngạc khi giới thiệu mô hình ngôn ngữ lớn cạnh tranh với ChatGPT nhưng chi phí chỉ 5,6 triệu USD. Haas hoài nghi về chi phí thấp này và nghi ngờ DeepSeek sử dụng dữ liệu từ ChatGPT.
- DeepSeek công khai mã nguồn mở của mình, trái ngược với mô hình đóng của OpenAI, nhưng Haas tin rằng mô hình này có thể bị cấm vì lo ngại an ninh, tương tự TikTok.
- Arm, với lịch sử lâu đời từ thập niên 1980, đã xuất xưởng gần 300 tỷ thiết bị sử dụng thiết kế chip của mình. Công ty này từng thuộc sở hữu của SoftBank, và gần đây niêm yết trở lại trên sàn Nasdaq.
- Rene Haas, từng làm việc tại NVIDIA, đã chuyển dịch chiến lược của Arm từ việc tập trung vào phí bản quyền thấp đến mô hình định giá linh hoạt tùy thuộc vào giá trị của thiết bị sử dụng chip. Chiến lược này giúp tăng cường doanh thu và vị thế cạnh tranh.
- Đề xuất bán Arm cho NVIDIA trước đây bị chặn bởi cơ quan quản lý vì lo ngại độc quyền. Quyết định này được Haas ủng hộ vì giữ được sự công bằng cho thị trường.
- Hiện tại, Arm tham gia vào Stargate, dự án cơ sở hạ tầng AI trị giá 500 tỷ USD, với sự hợp tác của các ông lớn như OpenAI và SoftBank. Arm cũng là nền tảng cho các agent AI thế hệ mới ứng dụng trong công việc.
- Haas nhấn mạnh tiềm năng AI trong y học, đặc biệt là nghiên cứu DNA và RNA, với khả năng mang lại những đột phá trong điều trị ung thư.

📌 Arm đạt giá trị vốn hóa 175 tỷ USD nhờ chiến lược chuyển đổi mô hình thành công. DeepSeek khiến ngành AI chú ý nhưng gặp nhiều hoài nghi. Arm sẵn sàng cho các bước tiến mới trong AI, đặc biệt trong y học, với tiềm năng thay đổi thế giới.

https://www.ft.com/content/794d62b6-30c9-47d3-9d17-80f5e86c867f

#FT

CEO của Arm nói về tương lai của AI và lý do không lo sợ DeepSeek
Rene Haas đã định hình lại mô hình kinh doanh của hãng chip, tập trung vào tiền bản quyền thay vì phí

Hai tuần trước, Rene Haas đang đạp xe tập thể dục và xem CNBC như thường lệ vào mỗi buổi sáng thì chứng kiến ngành công nghệ bị giáng một đòn nặng nề. “Màn hình TV toàn màu đỏ”, tổng giám đốc của Arm Holdings nhớ lại. “Mọi thứ đang sụp đổ và tôi tự hỏi: nghiêm túc đấy à? Thật sự sao? Mọi người đang nghĩ gì vậy?”

Thị trường hoảng loạn vì sự ra mắt của một mô hình mới từ DeepSeek, một startup trí tuệ nhân tạo thuộc sở hữu của Trung Quốc. DeepSeek đã phát triển một mô hình ngôn ngữ lớn với khả năng đạt được kết quả tương đương ChatGPT của OpenAI — với chi phí mà họ tuyên bố chỉ bằng một phần nhỏ. Khi các nhà đầu tư hoảng sợ hôm đó, Nvidia, nhà sản xuất chip thống trị thị trường AI, đã mất gần 600 tỷ USD giá trị vốn hóa. Cổ phiếu của Arm, công ty mà Haas điều hành từ năm 2022, giảm khoảng 10%, tương đương mất khoảng 17 tỷ USD (hiện đã phục hồi).

Arm thiết kế và cấp phép kiến trúc cốt lõi cho gần như tất cả các smartphone và ngày càng hợp tác nhiều hơn với các nhà sản xuất chip như Nvidia, vì vậy không tránh khỏi bị ảnh hưởng bởi những lo ngại về lộ trình phát triển của AI. Haas có đồng ý với nhà đầu tư mạo hiểm Marc Andreessen, người gọi DeepSeek là "thời khắc Sputnik" của AI? “Không”, ông khẳng định. “Mọi thứ đang thay đổi nhanh đến mức, đến khi bạn viết xong bài này, có thể đã có một điều gì đó khác xảy ra rồi.”

Nhưng ông cũng thừa nhận DeepSeek là một bất ngờ. “Thứ nhất, một mô hình mã nguồn mở đã bắt kịp, về lý thuyết, một số công cụ suy luận mã nguồn đóng tốt nhất.” DeepSeek đã công bố nghiên cứu đằng sau mô hình của mình và chia sẻ một phần cơ chế hoạt động, trong khi các mô hình như ChatGPT là mã nguồn đóng, sử dụng mã độc quyền. Việc mô hình này có nguồn gốc từ Trung Quốc cũng là “một vấn đề lớn”, ông nói, vì trước đây những bước tiến trong AI chủ yếu do Thung lũng Silicon dẫn dắt.

Haas không mấy ấn tượng với tuyên bố rằng DeepSeek được phát triển chỉ với 5,6 triệu USD, một con số rất nhỏ so với chi phí huấn luyện các mô hình AI tại Mỹ. Ông cho rằng không thể tin vào “những tin đồn” rằng “họ làm được điều này với ngân sách eo hẹp… Tôi nghĩ mọi người đã phản ứng thái quá kiểu ‘có lẽ thế giới sắp kết thúc rồi’.”

Bất kỳ ai lo lắng về tương lai của AI nên nhìn vào những người đang rót tiền vào lĩnh vực này, ông nói. “Dấu hiệu cảnh báo cần theo dõi là khi [các lãnh đạo công nghệ] như Satya Nadella, Sundar [Pichai] hay [Mark] Zuckerberg nói: ‘Bạn biết khoản đầu tư 80 tỷ USD vào cơ sở hạ tầng mà tôi đã lên kế hoạch không? Tôi nghĩ tôi sẽ cắt giảm hai phần ba số đó.’ Đó mới là điều cần chú ý.”

Haas cũng nghi ngờ rằng cách tiếp cận của DeepSeek có gì mang tính cách mạng, cho rằng công ty này sử dụng một quy trình gọi là “distillation” (chưng cất tri thức), trong đó AI học từ các mô hình khác. OpenAI cũng đồng tình: vài ngày sau khi DeepSeek công bố dữ liệu hiệu năng, công ty Mỹ này tuyên bố có bằng chứng cho thấy đối thủ Trung Quốc đã sử dụng dữ liệu độc quyền của ChatGPT để huấn luyện mô hình của mình.

Ông không dự đoán một tương lai tươi sáng cho DeepSeek, thậm chí còn cho rằng công ty này sẽ “bị đóng cửa”. Washington đang “vật lộn để tìm cách xử lý chuyện này. Nghĩ mà xem… nếu người ta không cho phép TikTok, thì tại sao lại cho phép cái này?” Nhưng đó chỉ là quan điểm cá nhân, ông nói thêm. “Tôi không có bất kỳ thông tin nội bộ nào về việc này.”

Arm hoạt động trong một mảng khác nhưng có liên quan trong hệ sinh thái công nghệ. Công ty có nguồn gốc từ BBC Micro, một chiếc máy tính từng xuất hiện phổ biến trong các lớp học ở Anh vào thập niên 1980 và là nơi xuất hiện bộ vi xử lý Arm đầu tiên. Những người sáng lập Arm đã lập công ty riêng từ một nhà kho nuôi gà tây cũ ở Cambridgeshire, cấp phép thiết kế chip cho Apple để sử dụng trong thiết bị Newton (nay đã ngừng sản xuất), rồi sau đó cho thế hệ điện thoại di động đầu tiên. Khi Apple khởi động cuộc cách mạng smartphone với iPhone, họ đã tìm đến Arm. Kể từ khi công ty có trụ sở tại Anh này ra mắt năm 1990, gần 300 tỷ thiết bị sử dụng thiết kế chip của họ đã được xuất xưởng.

Haas là một người đàn ông cao lớn, hôm nay trông còn cao hơn nhờ đôi giày đế cao kiểu Cuba. Tháng này đánh dấu ba năm ông làm CEO của Arm, nhưng thực tế ông đã gia nhập công ty từ năm 2013 sau 7 năm làm việc tại Nvidia—nơi ông có thời gian hợp tác chặt chẽ với CEO Jensen Huang—và sau đó là một giai đoạn khởi nghiệp một số công ty. Ông bắt đầu sự nghiệp tại Texas Instruments, nhưng người có công đưa ông đến với lĩnh vực máy tính chính là cha ông.

Cha của Haas từng chạy trốn khỏi Đức Quốc xã cùng một số thành viên gia đình gốc Do Thái sang Bồ Đào Nha khi còn nhỏ vào đầu những năm 1930. Đó là “câu chuyện nhập cư kinh điển của nước Mỹ”, Haas nói. Cha ông gặp mẹ ông tại Bồ Đào Nha rồi hai người chuyển đến Mỹ, cuối cùng định cư tại vùng ngoại ô New York, nơi ông làm việc cho bộ phận nghiên cứu của Xerox.

Bộ phận này có một nhóm nghiên cứu ở bờ Tây: Trung tâm Nghiên cứu Palo Alto, nơi theo truyền thuyết Thung lũng Silicon, Steve Jobs lần đầu tiên nhìn thấy giao diện đồ họa vào năm 1979. Haas từng đến thăm cơ sở này khi còn nhỏ cùng gia đình vài năm trước đó và hoàn toàn bị choáng ngợp bởi những gì ông chứng kiến. “Giống như bước vào một bộ phim khoa học viễn tưởng vậy. Máy tính, trò chơi, giao tiếp với người khác… và đây là chuyện từ 50 năm trước.”

Năm 2006, Haas gia nhập Nvidia, khi đó công ty này đạt doanh thu khoảng 4 tỷ USD và có vốn hóa thị trường khoảng 10 tỷ USD (ngày nay, ngay cả sau cú sốc DeepSeek, Nvidia vẫn có giá trị lên tới 3.000 tỷ USD).

Haas phát triển mối quan hệ thân thiết với Huang (người gần đây đã xuất hiện trên một podcast do Haas dẫn dắt) và nhớ lại rằng Nvidia thời điểm đó còn khá "chật vật", hoạt động dưới cái bóng của Intel, công ty dẫn đầu thị trường khi ấy. Nhưng sau đó, hai công ty đã đổi chỗ khi Nvidia tăng trưởng bùng nổ. “Intel có tư duy của một hội đồng quản trị, nghĩa là đưa ra quyết định chậm chạp.” Trong khi đó, tại Nvidia, “một trong những siêu năng lực của họ là khả năng xoay trục và thay đổi chiến lược, hướng đi rất nhanh. Quan trọng hơn, Jensen có thể làm điều đó và cả công ty ngay lập tức tập hợp phía sau ông ấy.”

Khi Haas chuyển sang Arm, công ty này đang được niêm yết đồng thời tại London và Nasdaq. Ba năm sau, SoftBank mua lại với giá 32 tỷ USD. Masayoshi Son, CEO của SoftBank, muốn chia công ty thành hai mảng: một mảng tập trung vào “internet vạn vật” (IoT) và dịch vụ, mảng còn lại vẫn giữ trọng tâm vào thiết kế chip truyền thống—và Haas được giao phụ trách mảng này.

“Masa có quan điểm chung rằng [Arm] có thị phần rất lớn, nhưng lại không thực sự thu về nhiều giá trị từ thị phần đó.”

Tuy nhiên, Son lại “bị phân tâm bởi đủ thứ khác. Ông ấy lập Vision Fund. Ông ấy mua WeWork. Ông ấy cố gắng hoàn tất thương vụ T-Mobile và Sprint. Quá nhiều thứ cùng lúc.”

Điều này hóa ra lại là cơ hội, giúp Haas và đội ngũ thử nghiệm chiến lược mới. Ông quyết định thay đổi mô hình kinh doanh của Arm, chuyển sang thu tiền bản quyền cao hơn từ các thiết bị sử dụng kiến trúc chip của công ty, thay vì tập trung vào phí cấp phép ban đầu. Trước đó, Arm tính phí bản quyền gần như giống nhau cho một con chip trong máy xay sinh tố và một con chip dùng trong trung tâm dữ liệu cao cấp—một điều mà ông cho là “điên rồ”. Ông tái cấu trúc công ty theo từng ngành dọc, tạo ra các mảng kinh doanh riêng biệt, chẳng hạn như chip dành cho máy chủ và chip dành cho ô tô. Ông nhấn mạnh rằng thiết kế của Arm phải được định giá “tương xứng với giá trị mang lại”.

Tuy nhiên, việc đưa sản phẩm mới ra thị trường cần thời gian. Dù Haas đã điều chỉnh mô hình bán hàng có lợi hơn cho Arm, kết quả không đến ngay lập tức. “Nó chưa thực sự tăng trưởng, nhưng tôi biết rồi nó sẽ tăng.”

Khi không thấy công ty tăng trưởng ngay, Son (người tháng trước còn xuất hiện trong tòa Rotunda cùng những ông trùm công nghệ khác tại lễ nhậm chức của Donald Trump) quyết định bán công ty.

Người mua duy nhất sẵn sàng trả mức giá mà Son muốn là Huang của Nvidia. Nhưng thương vụ này cuối cùng không thành công vì bị các cơ quan quản lý ngăn chặn do lo ngại vi phạm luật cạnh tranh. Haas cho rằng các nhà quản lý “đã làm đúng. Hoàn toàn đúng. Việc một khách hàng của Arm nắm giữ thị phần rộng lớn của công ty sẽ tạo ra bất lợi rất lớn cho những công ty khác.”

Những sự kiện sau đó cho thấy quyết định không bán cho Nvidia là chính xác. SoftBank cuối cùng quyết định niêm yết lại Arm trên Nasdaq, từ chối đề nghị niêm yết tại London của chính phủ Anh. Chưa đầy hai năm sau và chưa đến ba năm từ khi Haas trở thành CEO, giá trị công ty đã tăng vọt lên khoảng 175 tỷ USD.

Cơn sốt AI có thể đã giúp thúc đẩy thị trường, nhưng chính sự thay đổi mô hình kinh doanh của Haas mới thực sự làm Arm lột xác. Câu hỏi đặt ra bây giờ là động lực tăng trưởng tiếp theo sẽ đến từ đâu.

Có nhiều tin đồn rằng Arm sẽ bắt đầu tự sản xuất chip—một bước đi mang tính đột phá hoàn toàn so với mô hình kinh doanh dựa trên bản quyền và cấp phép hiện tại. Khi tôi hỏi Haas khi nào điều này sẽ xảy ra, ông không muốn tiết lộ thêm.

Trước mắt, Arm thông qua SoftBank là một phần của Stargate, dự án đầu tư hạ tầng AI trị giá 500 tỷ USD do Donald Trump công bố vào ngày thứ hai sau khi nhậm chức nhiệm kỳ thứ hai. OpenAI cũng là một thành viên trong liên minh này và ngoài ra còn đang hợp tác với Arm để cung cấp nền tảng cho thế hệ “AI agent” mới nhằm cải thiện năng suất lao động.

Sẽ có những trở ngại trên đường đi, nhưng cuộc cách mạng AI là có thật và sẽ thay đổi thế giới, Haas khẳng định. Ông lấy ví dụ về bong bóng dotcom đầu những năm 2000 và những công ty đã trỗi dậy sau khi bong bóng vỡ.

Ngoài công việc tại Arm, Haas cũng là thành viên hội đồng quản trị của AstraZeneca, và ông trở nên hào hứng nhất khi nói về cách AI có thể giúp ích cho y học.

“Hãy nghĩ về cách phát triển thuốc mới hiện nay. Trước tiên, phải thử nghiệm trên động vật trước khi thử trên người. Đó là kiểu tư duy của những năm 1950, đúng không?” AI có thể khiến những “mô hình cũ… bị phá vỡ hoàn toàn.”

Ông đề cập đến việc sử dụng AI trong nghiên cứu DNA và RNA. Những điều tưởng chừng không thể có thể xảy ra—giống như việc một công ty khởi đầu từ một nhà kho cũ lại trở thành một gã khổng lồ trị giá 175 tỷ USD.

Ông kết luận: “Có cơ hội để chữa khỏi ung thư trong đời chúng ta. Và đó là một điều hoàn toàn có cơ sở.”

Arm CEO on the future of AI and why he is not afraid of DeepSeek
Rene Haas has reshaped chipmaker’s business to focus on royalties rather than fees
Rene Haas was on an exercise bike two weeks ago watching CNBC like he does every morning, when the tech sector took a beating. The TV screen had “red everywhere”, recalls the chief executive of Arm Holdings. “Everything is crashing and I’m thinking to myself: seriously? Really? What are people thinking?”
The market freak-out had been triggered by the release of a new model from DeepSeek, a Chinese-owned artificial intelligence start-up that has developed a large language model capable of results comparable to those of OpenAI’s ChatGPT — for what it claimed was a fraction of their cost. As investors took fright that day, Nvidia, the dominant maker of chips that power AI applications, lost almost $600bn of market value. Shares in Arm, which Haas has run since 2022, fell about 10 per cent, equivalent to losing about $17bn (they have since recovered).
Arm designs and licenses the essential architecture in almost all smartphones and increasingly works with chipmakers such as Nvidia, so is likely to be affected by any anxiety about AI’s trajectory. Does Haas agree with the venture capitalist Marc Andreessen, who hailed DeepSeek as AI’s “Sputnik moment”? “No,” he says firmly. “This is moving so fast, by the time you write this article, there could be something different.”
But he acknowledges DeepSeek was a surprise. “Number one, an open-source model has caught up with, in theory, some of the best closed-source reasoning tools.” DeepSeek published the research behind its model and made some of its workings publicly available; models such as ChatGPT are closed source, using proprietary code. The fact that the model originated in China is also “a big deal”, he says, given advancements in AI have, to date, been led by Silicon Valley. Haas is less impressed with claims DeepSeek was developed for a bargain $5.6mn, a tiny fraction of the amount used in the training of US models. He says he does not believe “the rumours” that “they did this on a shoestring budget . . . I think that’s where people just over-indexed on ‘maybe the world’s coming to an end’.”

Anyone worried about the future of AI should look at who is investing money, he says. “The canary in the coal mine to look at is when [tech bosses] Satya Nadella or Sundar [Pichai] or [Mark] Zuckerberg say, ‘You know that $80bn of capex I said I was going to do? I think I’m going to cut that by two-thirds.’ That’s what you need to look for.”
Haas also doubts DeepSeek’s approach was particularly revolutionary, saying he believes the company used a process called “distillation”, whereby it learns from other AI models. OpenAI agrees: days after the launch of DeepSeek’s performance data, the US company said it had evidence that its Chinese rival had used ChatGPT’s proprietary data to train its models.
He does not predict a rosy future for DeepSeek, saying he thinks it will “get shut down”. Washington is “scrambling on what to do with this thing. Think about it . . . if you’re not going to allow a TikTok, why would you allow this?” This is only his opinion, he adds. “I’m not operating on any knowledge [here].”
Arm occupies a different but related part of the tech ecosystem. Its roots stretch back to the BBC Micro, a computer that was a fixture of most 1980s UK school classrooms and which featured the first Arm processor. Arm’s founders launched their own company from an old turkey barn in Cambridgeshire, licensing their chip design to Apple for its now defunct Newton handheld device, and then to the early generation of mobile phones. When Apple fired the gun on the smartphone revolution with the iPhone, it turned to Arm. Since the UK-based company’s launch in 1990, close to 300bn devices using its chip designs have been shipped.
Haas is a tall man, and taller today in nifty Cuban heels. This month is his three-year anniversary as Arm CEO but he first arrived at the company in 2013 after a seven-year stint at Nvidia — where he worked closely with chief executive Jensen Huang — and a spell starting several companies. He began his career at Texas Instruments but has his father to thank for introducing him to computing. The elder Haas fled Nazi Germany with some of his Jewish family for Portugal as a child in the early 1930s. It is “the classic American immigrant story”, Haas says. His father met his mother in Portugal and the couple moved to America, eventually settling in upstate New York, where Haas senior worked for the research arm of Xerox.
The division had a sister research group on the west coast: the Palo Alto Research Center which, according to Silicon Valley legend, is where a young Steve Jobs first saw a graphical user interface in 1979. Haas had visited the facility as a young boy with his family a few years earlier and was blown away by what he saw. “It was like walking into a science-fiction movie. Computers, games, communicating with others . . . and this is 50 years ago.”
In 2006, Haas landed at Nvidia, which at the time was generating about $4bn in revenue and had a market capitalisation of about $10bn (these days, even after the DeepSeek turmoil, it is worth $3tn).
He developed a close relationship with Huang (who recently appeared on a podcast hosted by Haas) and says the company at the time was “scrappy”, working in the shadow of then market leader Intel. They would eventually swap places as Nvidia’s growth exploded. “Intel had a board mentality, meaning it moved at a slow pace relative to making decisions.” At Nvidia, “one of their superpowers is they are able to pivot and change strategy and direction. More importantly, Jensen is able to do that and the company mobilises very quickly behind him.”
When Haas jumped to Arm, it was jointly listed in London and on the Nasdaq and three years later was acquired by SoftBank for $32bn. SoftBank’s chief executive, Masayoshi Son, wanted to split the company in two, with one half focused on the “internet of things” and services and the other on its classic chip design business, which Haas was asked to run.
“Masa had a general view that [we] had a really high market share, but didn’t really extract a lot of value for that share.”
Son, though, “got distracted with all this other stuff. He did Vision Fund. He bought WeWork. He was trying to get the T-Mobile Sprint deal over the line. He had a million things going on.”
This turned out fortuitously, allowing Haas and his team to try out new strategies. He decided to flip Arm’s business model, tying higher royalties to the devices that used its chip architecture, rather than focusing on upfront licence fees. Arm was charging roughly the same royalty on a chip that appeared in a blender as one that went into a high-end data centre, which he says was “crazy”. He reorganised the company along vertical lines, creating a business for servers, and a business for cars, for example. Arm’s designs had to be priced “commensurate with the value”.
But bringing new products to market takes time and, although Haas made the sales model more favourable to Arm, the results were not immediate. “It wasn’t really growing but I knew it was going to.”
With little growth on the immediate horizon, Son (who was in the Rotunda with the other tech bros for Donald Trump’s inauguration last month) decided to sell the company.
The only bidder willing to pay the price he wanted was Huang at Nvidia, although his offer was ultimately unsuccessful and blocked by regulators on antitrust grounds. Haas says the regulators “got it right. Absolutely. Arm’s broad market share in the hands of one of its customers would have put a very, very significant disadvantage against the others.”
Events since suggest not selling to Nvidia was the right move. SoftBank ultimately decided to relist Arm on Nasdaq, rejecting the overtures of the UK government for a listing in London. Less than two years later and not yet three years since Haas was made chief executive, its value has skyrocketed to a market capitalisation of about $175bn.
Market fervour for AI may have helped but Haas’s business model switch certainly transformed Arm. The question now is where the next boost will come from. There have been reports that Arm will start building its own chip, a move that would be a radical departure from its royalty and licensing-based business model.
I press Haas on when this might happen but he does not want to say more.
More immediately, Arm is, via SoftBank, part of Stargate, the $500bn AI infrastructure investment project unveiled by Donald Trump on his second day in office. OpenAI is also part of the consortium and, separately, is working with Arm on providing the platform for a new generation of AI “agents” to improve workplace productivity.
There may be bumps in the road but the AI revolution is real and will change the world, says Haas, pointing to the first dotcom bubble and the companies that emerged when it burst. He is also a member of the AstraZeneca board and becomes most animated when talking about how AI can be harnessed to benefit medicine.
“Think about what you do today with brand new drugs. You actually do trials on animals before you do trials on humans. That’s 1950s kind of stuff, right?” AI means existing “paradigms . . . can be completely shattered”.
He mentions using AI on DNA and RNA research. The improbable can happen, it seems — much like turning a company that started in a barn into a $175bn powerhouse. There is, he says, an “opportunity to cure cancer in our lifetime. It’s pretty real.”

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-02-10 14:27:30

DeepSeek gây sốt tại Trung Quốc trong cuộc đua AI nội địa

- DeepSeek, startup AI sáng lập năm 2023, nổi bật tại Trung Quốc nhờ mô hình ngôn ngữ lớn (LLM) V3 và mô hình lập luận R1, cho phép hội thoại tự nhiên, sáng tác thơ, đề xuất bài tập gym và hỗ trợ thi cử.
- Dịp Tết Nguyên Đán năm 2025, DeepSeek thu hút hàng triệu người dùng với khả năng dự đoán vận mệnh thông qua "bazi" (8 ký tự đại diện cho ngày sinh) và chia sẻ kết quả rầm rộ trên mạng xã hội.
- DeepSeek, với mô hình AI hiệu quả nhưng chi phí thấp, được nhiều người xem là đối thủ xứng tầm của ChatGPT, dù không sử dụng chip tiên tiến nhất.

- Chính phủ Trung Quốc thúc đẩy phát triển AI với quỹ đầu tư 60 tỷ Nhân dân tệ (198.5 nghìn tỷ đồng) vào tháng 1/2025 và đã đầu tư tổng cộng 184 tỷ USD (4.3 triệu tỷ đồng) từ năm 2000 đến 2023 cho hơn 9.600 công ty AI.
- Trung Quốc hiện chiếm 9/20 vị trí hàng đầu trên nền tảng xếp hạng Chatbot Arena, cạnh tranh trực tiếp với Mỹ.

Thành công của DeepSeek được ghi nhận nhờ:
- Tự chủ tài chính từ nhà sáng lập Liang Wenfeng, một tỷ phú từ quỹ đầu tư High-Flyer.
- Cơ cấu tổ chức linh hoạt, không chịu sức ép thương mại hóa.
- Tận dụng nguồn tài nguyên từ các nghiên cứu AI trước đó, bao gồm Qwen, một nguồn mở của Alibaba.

- Các startup "lục tiểu hổ" như Zhipu AI, MiniMax hay Moonshot AI đang chạy đua đổi mới, trong khi DeepSeek tạo áp lực cho các công ty lớn và nhà nước phải thích ứng.

- Tuy nhiên, giới chuyên gia nhận định, mô hình phi lợi nhuận và tổ chức gọn nhẹ của DeepSeek khó nhân rộng, đặt thách thức lớn cho các công ty khác.

📌 DeepSeek chinh phục Trung Quốc với tiêu biểu các mô hình tiên tiến V3 và R1, đem lại khả năng giao tiếp tự nhiên và sáng tạo vượt bậc, dù không dùng công nghệ chip hiện đại nhất. Thành công của DeepSeek thúc đẩy cuộc đua AI tại Trung Quốc, đối đầu trực tiếp với Mỹ trong lĩnh vực công nghệ.

https://www.straitstimes.com/asia/in-china-the-domestic-ai-race-intensifies-as-chinese-go-gaga-over-deepseek

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-02-09 11:24:41

Mistral ra mắt ứng dụng di động Le Chat trên iOS và Android, cạnh tranh ChatGPT

- Mistral - công ty được xem là niềm hy vọng lớn của châu Âu trong lĩnh vực AI, vừa ra mắt ứng dụng di động Le Chat trên cả iOS và Android

- Mistral phát triển các mô hình ngôn ngữ lớn riêng như Mistral Large và mô hình multimodal Pixtral Large, có thể sử dụng thương mại qua API hoặc các đối tác đám mây như Azure AI Studio, Amazon Bedrock và Google Vertex AI

- Le Chat cạnh tranh trực tiếp với ChatGPT, Claude, Google Gemini và Microsoft Copilot, cung cấp giao diện trò chuyện đơn giản cho phép người dùng tương tác với mô hình AI

Tính năng nổi bật của Le Chat:
- Hỗ trợ tìm kiếm web với trích dẫn (từ tháng 11/2024)
- Tạo sinh và chỉnh sửa hình ảnh
- Tốc độ xử lý lên đến 1.000 từ mỗi giây
- Tích hợp với mô hình tạo hình ảnh Flux Ultra của Black Forest Labs

Mistral giới thiệu gói Pro với giá 14,99 USD/tháng, cung cấp:
- Truy cập mô hình hiệu năng cao nhất
- Giới hạn sử dụng cao hơn
- Tùy chọn không chia sẻ dữ liệu với Mistral

Ưu điểm cạnh tranh của Le Chat trong thị trường doanh nghiệp:
- Cho phép triển khai tại chỗ (on premise)
- Tùy chỉnh mô hình và giao diện người dùng
- Phù hợp với các ngành như quốc phòng và ngân hàng

📌 Mistral đã tạo được lợi thế cạnh tranh với tốc độ xử lý 1.000 từ/giây và khả năng triển khai tại chỗ cho doanh nghiệp. Ứng dụng di động mới ra mắt sẽ cạnh tranh trực tiếp với các ứng dụng AI hàng đầu như ChatGPT, DeepSeek và Google Gemini trên App Store.

https://techcrunch.com/2025/02/06/mistral-releases-its-ai-assistant-on-ios-and-android/

Không có file đính kèm.

Nguồn tham khảo

109

AI nhỏ AI mở-nguồn mở 2025-02-09 11:17:39

S1 - Mô hình AI mới từ Stanford có chi phí đào tạo chỉ 50 USD

- Các nhà nghiên cứu tại Stanford và Đại học Washington đã phát triển mô hình S1 với chi phí đào tạo chỉ 50 USD (khoảng 4.400 rupee)

- S1-32B là mô hình ngôn ngữ nguồn mở tập trung vào nhiệm vụ suy luận, sử dụng kỹ thuật "test-time scaling" để lặp lại phản hồi bằng cách sử dụng thêm tài nguyên tính toán trong quá trình kiểm thử

- Mô hình được đào tạo trên bộ dữ liệu S1K gồm 1.000 câu hỏi được chọn lọc kỹ về độ khó, đa dạng và chất lượng trong các lĩnh vực toán học, suy luận và khoa học

- Quá trình đào tạo chỉ mất 26 phút trên 16 GPU NVIDIA H100 thông qua supervised fine-tuning trên mô hình nền Qwen2.5-32B-Instruct

- S1 học cách suy luận bằng cách nghiên cứu câu hỏi và câu trả lời từ Gemini 2.0 Flash Thinking Experimental của Google

- Khi đánh giá trên 3 tiêu chuẩn AIME24, MATH500 và GPQA Diamond, S1 vượt trội hơn mô hình o1 Preview của OpenAI tới 27% trong các bài toán thi đấu

- Mô hình có khả năng chia nhỏ câu hỏi phức tạp thành nhiều bước để phân tích và trả lời, ví dụ như tính toán chi phí thay thế iPhone bằng máy tính bảng Android

- S1 chứng minh khả năng xây dựng mô hình suy luận hiệu quả chỉ với 1.000 mẫu, không cần học tăng cường và bộ dữ liệu khổng lồ

📌 Mô hình S1 mở ra kỷ nguyên mới cho AI chi phí thấp với chỉ 50 USD đào tạo, đạt hiệu suất vượt 27% so với đối thủ OpenAI trong các bài toán thi đấu. Đây là minh chứng cho việc phát triển AI hiệu quả không nhất thiết phải tốn kém.

https://indianexpress.com/article/technology/artificial-intelligence/what-is-s1-ai-model-the-openai-o1-rival-trained-in-less-than-50-9824588/

Không có file đính kèm.

Nguồn tham khảo

111

AI mở-nguồn mở AI cybersecurity 2025-02-09 10:59:42

Doanh nghiệp Singapore đánh giá lợi ích từ DeepSeek nhưng thận trọng về rủi ro bảo mật dữ liệu và thiên kiến AI

- DeepSeek ra mắt mô hình R1 vào tháng 1/2025, gây chấn động ngành công nghệ với chi phí đào tạo chỉ 5,6 triệu USD (7,6 triệu SGD), thấp hơn nhiều so với các đối thủ

- Nền tảng Ai Palette ước tính DeepSeek có thể giúp doanh nghiệp tiết kiệm 40-60% chi phí cơ sở hạ tầng để vận hành các mô hình ngôn ngữ lớn

- Nghiên cứu của IBM cho thấy gần 50% trong số 200 người ra quyết định IT tại Singapore muốn sử dụng nhiều công nghệ AI nguồn mở hơn trong năm 2025

- Các công ty lớn như ngân hàng, tư vấn và an ninh mạng đã đặt ra quy tắc cấm nhân viên sử dụng DeepSeek cho công việc do lo ngại về bảo mật

- Các thử nghiệm ban đầu cho thấy DeepSeek còn thiếu một số tiêu chuẩn AI có trách nhiệm, như trả lời các câu hỏi nhạy cảm hoặc kiểm duyệt câu trả lời về các chủ đề gây tranh cãi

- Hàn Quốc, Ý và Úc đã chặn quyền truy cập DeepSeek trên các thiết bị chính phủ vì lo ngại về an ninh

- Một số công ty như Babbobox và Wiz.AI đã bắt đầu sử dụng DeepSeek cho các tác vụ như tìm kiếm cảm hứng, viết mã và hỗ trợ khách hàng

- OCBC Bank và UOB tự phát triển chatbot AI tùy chỉnh trên máy chủ nội bộ để đảm bảo dữ liệu doanh nghiệp không bị chia sẻ

📌 DeepSeek tạo ra bước đột phá với mô hình R1 chi phí thấp (5,6 triệu USD) giúp tiết kiệm tới 60% chi phí hạ tầng. Tuy nhiên, các doanh nghiệp Singapore vẫn thận trọng do thiếu tính minh bạch về bảo mật dữ liệu và có dấu hiệu kiểm duyệt nội dung theo định hướng của chính phủ Trung Quốc.

https://www.straitstimes.com/tech/firms-in-spore-eye-deepseek-ai-benefits-but-cautious-about-data-security-risks-ai-biases

Không có file đính kèm.

Nguồn tham khảo

106

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2025-02-07 22:00:35

Dự luật mới của Mỹ nhằm cấm sử dụng chatbot DeepSeek của Trung Quốc trên các thiết bị chính phủ

- Hai nghị sĩ Mỹ Darin LaHood (Đảng Cộng hòa) và Josh Gottheimer (Đảng Dân chủ) sẽ đề xuất dự luật cấm sử dụng chatbot DeepSeek trên thiết bị chính phủ

- DeepSeek, startup Trung Quốc mới thành lập 1 năm, gây chấn động khi phát hành mô hình AI R1 với khả năng tương đương các mô hình hàng đầu của Mỹ nhưng chi phí đào tạo thấp hơn và tiết kiệm năng lượng hơn

- Dự luật sẽ cho các cơ quan chính phủ 60 ngày để phát triển tiêu chuẩn và hướng dẫn gỡ bỏ DeepSeek và các ứng dụng khác của công ty mẹ High Flyer

- Australia, Ý và Đài Loan đã có động thái tương tự về việc hạn chế DeepSeek

- Ngôn ngữ trong dự luật tương tự như lệnh cấm TikTok tại Mỹ, với lo ngại về việc ByteDance có thể bị buộc chia sẻ dữ liệu người dùng Mỹ với chính phủ Trung Quốc

- Từ năm 2022, các cơ quan chính phủ liên bang và tiểu bang đã bắt đầu cấm sử dụng TikTok trên thiết bị công vụ

- Các chuyên gia an ninh mạng cảnh báo DeepSeek có thể gây rủi ro lớn hơn do thuộc sở hữu của Trung Quốc và luật an ninh mạng Trung Quốc yêu cầu các công ty phải cung cấp quyền truy cập dữ liệu theo yêu cầu của chính quyền

📌 Mỹ tiếp tục thắt chặt kiểm soát công nghệ Trung Quốc sau TikTok, lần này nhắm vào chatbot DeepSeek với dự luật cấm sử dụng trên thiết bị chính phủ trong 60 ngày, do lo ngại về việc thu thập dữ liệu và an ninh quốc gia.

https://www.cnn.com/2025/02/06/tech/deepseek-ai-us-ban-bill/index.html

Không có file đính kèm.

Nguồn tham khảo

104

AI mở-nguồn mở AI market 2025-02-06 00:25:56

CEO IBM : Deepseek cho thấy thời đại độc quyền AI đã kết thúc

- DeepSeek vừa thách thức quan điểm thông thường về AI khi chỉ sử dụng 2.000 chip Nvidia và chi phí khoảng 6 triệu USD để huấn luyện mô hình mới nhất, thay vì mức 1 tỷ USD như dự đoán trước đây

- CEO IBM Arvind Krishna khẳng định các mô hình nhỏ gọn, hiệu quả có thể mang lại kết quả thực tế mà không cần hệ thống độc quyền khổng lồ

- Phát triển AI không nên bị kiểm soát bởi một số ít công ty, đặc biệt khi họ có thể không chia sẻ các giá trị cơ bản về bảo vệ dữ liệu doanh nghiệp, quyền riêng tư và tính minh bạch

- IBM tin rằng năm 2025 phải là năm giải phóng AI khỏi sự độc quyền của một số ít người chơi. Đến năm 2026, xã hội không chỉ sử dụng mà còn nên tham gia xây dựng AI

- Các mô hình AI của IBM đã giúp giảm chi phí suy luận AI tới 30 lần, giúp việc huấn luyện hiệu quả và dễ tiếp cận hơn

- Arvind Krishna không đồng ý rằng AI tổng quát (AGI) sắp xuất hiện hoặc tương lai AI phụ thuộc vào việc xây dựng các trung tâm dữ liệu khổng lồ chạy bằng năng lượng hạt nhân

- Kinh nghiệm từ ngành máy tính cho thấy chi phí lưu trữ và xử lý ban đầu rất đắt đỏ, nhưng đã giảm mạnh nhờ tiến bộ công nghệ và quy mô kinh tế

📌 DeepSeek đã chứng minh AI hiệu quả chỉ cần 6 triệu USD thay vì 1 tỷ USD. Tương lai AI sẽ được định hình bởi các mô hình nguồn mở, chi phí thấp và sự tham gia rộng rãi của cộng đồng, không phải độc quyền bởi một số ít công ty.

https://fortune.com/2025/02/04/ibm-ceo-ai-deepseek-technology/

Không có file đính kèm.

Nguồn tham khảo

123

AI mở-nguồn mở AI market 2025-02-05 23:30:34

Hugging Face phát triển phiên bản nguồn mở của công cụ Deep Researche từ OpenAI

- Nhóm phát triển tại Hugging Face, dẫn đầu bởi đồng sáng lập kiêm giám đốc khoa học Thomas Wolf, đã xây dựng phiên bản nguồn mở của công cụ Deep Research của OpenAI

- OpenAI ra mắt công cụ deep research vào ngày Chủ nhật, hiện chỉ dành cho người dùng gói ChatGPT Pro 200 USD/tháng

- Dự án Open Deep Research của Hugging Face sử dụng:
+ Mô hình o1 của OpenAI (thông qua API trả phí)
+ Framework agent nguồn mở để lên kế hoạch phân tích
+ Công cụ tìm kiếm để thu thập thông tin

- Khả năng của Open Deep Research:
+ Tự động điều hướng web
+ Cuộn trang
+ Thao tác với tập tin
+ Thực hiện tính toán dữ liệu

- Điểm số trên bộ benchmark GAIA:
+ Open Deep Research: 54%
+ OpenAI deep research: 67,36%

- Thách thức hiện tại:
+ Demo công khai gặp lỗi do tải nặng
+ Mã nguồn đã được công bố trên GitHub
+ Thiếu mô hình o3 - thành phần quan trọng của deep research
+ Chưa có mô hình nguồn mở nào đạt hiệu suất bằng o3 trong việc trả lời câu hỏi phức tạp và thu thập thông tin

📌 Hugging Face phát triển phiên bản nguồn mở của công cụ nghiên cứu sâu OpenAI chỉ trong 24 giờ, đạt 54% điểm benchmark GAIA. Tuy nhiên, việc thiếu mô hình o3 khiến hiệu suất thấp hơn phiên bản gốc (67,36%). Mã nguồn đã được công bố trên GitHub để cộng đồng đóng góp cải thiện.

https://techcrunch.com/2025/02/04/hugging-face-researchers-aim-to-build-an-open-version-of-openais-deep-research-tool/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-02-05 23:11:24

DeepSeek của Trung Quốc tạo cú sốc công nghệ lớn nhất trong 185 năm qua

- Rao Yi, chủ tịch Đại học Y khoa Thủ đô tại Bắc Kinh, nhận định DeepSeek là cú sốc lớn nhất về khoa học công nghệ từ Trung Quốc trong 185 năm qua

- Theo Rao Yi, tầm quan trọng của thành tựu này không chỉ ở giá trị công nghệ mà còn ở việc tạo ra phản ứng bất ngờ từ cộng đồng quốc tế

- DeepSeek gần đây đã ra mắt 2 mô hình ngôn ngữ lớn V3 và R1, được phát triển với chi phí và sức mạnh tính toán thấp hơn nhiều so với các sản phẩm hàng đầu của Mỹ

- Sam Altman, CEO của OpenAI đã phải thừa nhận đây là "mô hình ấn tượng, đặc biệt là những gì họ có thể mang lại với mức giá đó"

- Rao Yi đã so sánh sự kiện này với thất bại của Trung Quốc trong cuộc chiến thuốc phiện lần thứ nhất năm 1842, thời điểm đánh dấu sự tụt hậu về công nghệ quân sự của Trung Quốc

- Sự xuất hiện của DeepSeek đã tạo ra làn sóng chấn động trong các công ty công nghệ Mỹ và thị trường chứng khoán

📌 DeepSeek đã chứng minh năng lực cạnh tranh của công nghệ AI Trung Quốc với hai mô hình ngôn ngữ lớn V3 và R1, tạo cú sốc lớn nhất từ Trung Quốc trong 185 năm qua theo nhận định của Rao Yi, chủ tịch Đại học Y khoa Thủ đô Bắc Kinh.

https://www.scmp.com/news/china/science/article/3297503/deepseeks-ai-breakthrough-biggest-shock-come-out-china-185-years

Không có file đính kèm.

Nguồn tham khảo

AI cybersecurity AI mở-nguồn mở 2025-02-05 23:07:48

Perplexity cho phép người dùng DeepSeek R1 an toàn, không kiểm duyệt nhạy cảm chính trị

- Perplexity đã tích hợp mô hình ngôn ngữ lớn DeepSeek R1 của Trung Quốc vào giao diện người dùng chính

- CEO Aravind Srinivas khẳng định đây là một "khoảnh khắc mang tính cách mạng" trong lĩnh vực AI

- Người dùng miễn phí và premium của Perplexity có thể lựa chọn sử dụng DeepSeek-R1 thông qua nút menu trong thanh tìm kiếm

- Perplexity đã phát triển giao diện cho phép người dùng theo dõi "chuỗi suy nghĩ" của mô hình theo thời gian thực

- Dữ liệu người dùng được lưu trữ trên máy chủ của Perplexity tại Mỹ và Canada, không chia sẻ với DeepSeek hoặc Trung Quốc

- DeepSeek đã phát triển mô hình sử dụng chip Nvidia H800 ít mạnh hơn do lệnh cấm chip của Mỹ

- Mô hình mới cho hiệu suất AI cao nhưng tiêu tốn ít năng lượng tính toán hơn các mô hình tương đương

- Perplexity đã gỡ bỏ các rào cản về nội dung nhạy cảm chính trị và lịch sử khỏi phiên bản nguồn mở của DeepSeek-R1

- Một số chuyên gia AI như Josh Kushner, Alexander Wang và Palmer Luckey tỏ ra hoài nghi về thành tựu của DeepSeek

- Giám đốc kinh doanh Dmitry Shevelenko nhấn mạnh hiệu quả về chi phí do mô hình nguồn mở không phải trả phí cho nhà cung cấp tư nhân

📌 Perplexity tích hợp thành công mô hình DeepSeek R1 của Trung Quốc, cho phép người dùng trải nghiệm AI tiên tiến với bảo mật cao, đồng thời tối ưu chi phí vận hành nhờ công nghệ tiết kiệm điện toán và mô hình nguồn mở.

https://www.fastcompany.com/91272776/you-can-try-deepseeks-r1-through-perplexity-without-the-security-risk

Không có file đính kèm.

Nguồn tham khảo

107

AI bản quyền AI mở-nguồn mở 2025-02-05 00:36:32

OpenAI tuyên bố không định kiện Deepseek dù bị nghi sao chép công nghệ ChatGPT

- Sam Altman, CEO OpenAI tuyên bố ngày 03/02/2025 tại Tokyo về việc công ty không có kế hoạch kiện startup DeepSeek của Trung Quốc

- OpenAI tuần trước đã cảnh báo các công ty Trung Quốc đang tích cực sao chép các mô hình AI tiên tiến của họ

- DeepSeek gây chú ý khi phát triển chatbot mạnh mẽ với chi phí được cho là thấp, gây xôn xao trong giới công nghệ Silicon Valley

- Sam Altman nhận xét DeepSeek là một mô hình ấn tượng, nhưng OpenAI tự tin sẽ tiếp tục dẫn đầu thị trường bằng cách phát triển các sản phẩm tốt hơn

- Cộng đồng công nghệ cáo buộc DeepSeek đã áp dụng kỹ thuật reverse-engineering để sao chép khả năng của công nghệ AI hàng đầu của Mỹ, đặc biệt là ChatGPT

- OpenAI cho biết các đối thủ đang sử dụng quy trình "chưng cất" - các nhà phát triển tạo mô hình nhỏ hơn bằng cách học từ mô hình lớn hơn, tương tự như học sinh học từ giáo viên

- Ngược lại, OpenAI cũng đang đối mặt với nhiều cáo buộc vi phạm quyền sở hữu trí tuệ, chủ yếu liên quan đến việc sử dụng tài liệu có bản quyền để huấn luyện các mô hình AI tạo sinh

📌 Dù DeepSeek bị nghi ngờ sao chép công nghệ thông qua kỹ thuật chưng cất, OpenAI và Sam Altman chọn cách tập trung phát triển sản phẩm thay vì kiện tụng. Quyết định này được đưa ra trong bối cảnh OpenAI cũng đang đối mặt với các cáo buộc vi phạm bản quyền.

https://www.thestandard.com.hk/breaking-news/section/6/226528/OpenAI's-Altman-says-'no-plans'-to-sue-China's-DeepSeek

Không có file đính kèm.

Nguồn tham khảo

176

AI mở-nguồn mở Semi-Cloud-DC-Green 2025-02-05 00:14:16

DeepSeek - AI giá rẻ từ Trung Quốc thúc đẩy bùng nổ trung tâm dữ liệu Malaysia

- Malaysia ghi nhận lưu lượng dữ liệu di động và có dây ở mức cao trong năm 2023: 13,21 exabytes và 13,25 exabytes

- Vị trí địa lý của Malaysia mang lại nhiều lợi thế:
- Là trung tâm kết nối cáp quang biển
- Gần Singapore - trung tâm tài chính hàng đầu
- Quan hệ tốt với các đồng minh Mỹ
- Chuyển đổi số vượt trội so với Indonesia và Vietnam

- DeepSeek nổi bật với chi phí đào tạo thấp:
- Chi phí đào tạo chỉ 5,6 triệu USD
- Hiệu suất tương đương các đối thủ lớn như Google và OpenAI
- Tăng hiệu quả sử dụng năng lượng lên 30%

- Tác động tích cực đến thị trường:
- Giá thành rẻ thúc đẩy mức độ sử dụng AI cao hơn (Jevons paradox)
- Doanh nghiệp Malaysia dễ tiếp cận hơn với công nghệ AI
- Meta và Microsoft vẫn duy trì kế hoạch đầu tư vào cơ sở hạ tầng AI

- Lợi thế cạnh tranh của Malaysia:
- Đất đai, nhân công, nước và năng lượng giá cả phải chăng
- Chính phủ ủng hộ phát triển
- Thị trường nội địa lớn
- Vị trí chiến lược kết nối châu Á

- Bộ trưởng Bộ Số hóa Gobind Singh Deo cho biết chính phủ đang nghiên cứu tác động của DeepSeek trước khi áp dụng

📌 Malaysia đang dẫn đầu Đông Nam Á về tốc độ tăng trưởng trung tâm dữ liệu nhờ vị trí địa lý thuận lợi và cơ sở hạ tầng số phát triển. DeepSeek với chi phí đào tạo 5,6 triệu USD sẽ thúc đẩy việc áp dụng AI rộng rãi hơn tại địa phương.

https://www.nst.com.my/business/economy/2025/02/1170141/deepseek-may-fuel-data-centre-growth-malaysia-bttv

Không có file đính kèm.

Nguồn tham khảo

102

AI cybersecurity AI mở-nguồn mở 2025-02-05 00:08:08

DeepSeek thúc đẩy AI nguồn mở như Llama của Meta nhưng rủi ro an ninh mạng tăng vọt

DeepSeek đã mang lại cú hích lớn cho các mô hình AI nguồn mở như Llama của Meta, chứng minh rằng AI nguồn mở không còn chỉ là dự án nghiên cứu phi lợi nhuận mà có thể cạnh tranh với các mô hình đóng như OpenAI GPT.
DeepSeek R1, một mô hình suy luận nguồn mở, tuyên bố đạt hiệu suất ngang bằng với OpenAI O1 nhưng với chi phí thấp hơn và tiêu thụ ít năng lượng hơn.
Thành công của DeepSeek khiến giá trị thị trường của Nvidia và các nhà sản xuất chip khác sụt giảm do lo ngại rằng AI nguồn mở có thể làm giảm nhu cầu về phần cứng đắt tiền.
DeepSeek là một phòng thí nghiệm AI của Trung Quốc, được thành lập năm 2023 bởi Liang Wenfeng, đồng sáng lập quỹ phòng hộ High-Flyer, với mục tiêu phát triển trí tuệ nhân tạo tổng quát (AGI).
Yann LeCun, nhà khoa học trưởng về AI của Meta, cho rằng thành công của DeepSeek không chỉ là chiến thắng của Trung Quốc mà là chiến thắng của AI nguồn mở.
Trung Quốc đang tận dụng AI nguồn mở để vượt qua các hạn chế tiếp cận chip tiên tiến từ Mỹ, và nhiều công ty Trung Quốc đang sử dụng AI mở để mở rộng phạm vi ảnh hưởng.
Không chỉ Trung Quốc, châu Âu cũng đang đầu tư vào AI nguồn mở với dự án OpenEuroLLM, hợp tác giữa các nhà nghiên cứu, công ty và trung tâm dữ liệu nhằm thúc đẩy quyền tự chủ AI.
Tuy nhiên, AI nguồn mở cũng mang đến nhiều rủi ro về an ninh mạng. Cisco phát hiện DeepSeek R1 có lỗ hổng nghiêm trọng và có thể bị tấn công với tỷ lệ thành công 100% bằng kỹ thuật "algorithmic jailbreaking".
Dữ liệu từ DeepSeek R1 được gửi trực tiếp đến Trung Quốc, làm dấy lên lo ngại về việc chính phủ Trung Quốc có thể giám sát người dùng quốc tế.
Các chuyên gia bảo mật cảnh báo rằng AI nguồn mở có thể bị tấn công chuỗi cung ứng, thao túng dữ liệu (data poisoning) hoặc bị khai thác để làm lộ thông tin nhạy cảm.
Mặc dù AI nguồn mở đem lại cơ hội đổi mới lớn, nhưng doanh nghiệp cần cẩn trọng khi sử dụng để tránh nguy cơ mất dữ liệu và bảo mật.

📌

DeepSeek không chỉ củng cố vị thế của AI Trung Quốc mà còn thúc đẩy xu hướng AI nguồn mở, làm lung lay các mô hình độc quyền như OpenAI GPT. Tuy nhiên, rủi ro an ninh mạng cũng gia tăng đáng kể, với bằng chứng về lỗ hổng bảo mật và nguy cơ rò rỉ dữ liệu sang Trung Quốc. Các công ty như Meta và cộng đồng AI châu Âu đang đầu tư mạnh vào AI nguồn mở, nhưng bài toán bảo mật vẫn là thách thức lớn cần giải quyết.

https://www.cnbc.com/2025/02/04/deepseek-breakthrough-emboldens-open-source-ai-models-like-meta-llama.html

Không có file đính kèm.

Nguồn tham khảo

109

AI tương lai AI mở-nguồn mở 2025-02-05 00:02:30

Cú sốc DeepSeek: Nghịch lý kinh tế 160 năm tuổi giải cứu cổ phiếu AI châu Âu?

- Cổ phiếu công nghệ toàn cầu lao dốc vào ngày 27/1 sau khi Trung Quốc ra mắt mô hình AI DeepSeek với chi phí rẻ hơn nhiều so với các đối thủ phương Tây

- Nvidia, công ty sản xuất chip AI hàng đầu Mỹ, mất 17% giá trị, tương đương gần 600 tỷ USD trong một ngày - mức giảm vốn hóa lớn nhất trong lịch sử của một công ty

- Các cổ phiếu công nghệ châu Âu cũng chịu tác động:
+ ASML (Hà Lan): giảm 7-12%
+ ASMI và BE Semi: giảm 7-12%
+ Siemens Energy: giảm mạnh

- Nghịch lý Jevons được các chuyên gia viện dẫn:
+ Lý thuyết kinh tế 160 năm tuổi của William Stanley Jevons
+ Khi một nguồn lực trở nên hiệu quả hơn và giá thành giảm, nhu cầu có thể tăng thay vì giảm
+ CEO Microsoft Satya Nadella: Khi AI trở nên hiệu quả và dễ tiếp cận hơn, việc sử dụng sẽ tăng vọt

- Các quỹ đầu tư lớn ủng hộ quan điểm này:
+ BlackRock Fundamental Equities EMEA
+ J. Safra Sarasin Sustainable Asset Management
+ Thematics Asset Management
+ Liontrust global equities

- Trọng tâm chú ý đổ dồn vào nhu cầu trung tâm dữ liệu và năng lượng cho AI
+ Châu Âu thiếu vắng đối thủ cạnh tranh với Nvidia
+ Câu hỏi về mức độ cần thiết của chip và cơ sở hạ tầng đắt đỏ

📌 DeepSeek của Trung Quốc gây chấn động thị trường AI toàn cầu với mô hình giá rẻ, khiến Nvidia mất 600 tỷ USD vốn hóa trong một ngày. Nghịch lý Jevons được kỳ vọng sẽ thúc đẩy nhu cầu AI tăng mạnh khi chi phí giảm, mở ra cơ hội mới cho ngành công nghệ châu Âu.

https://www.reuters.com/technology/artificial-intelligence/europes-ai-bulls-pin-hopes-jevons-paradox-after-deepseek-rout-2025-02-04/

Không có file đính kèm.

Nguồn tham khảo

123

AI market AI mở-nguồn mở 2025-02-04 23:52:15

Tìm hiểu DeepSeek tác động đến lợi nhuận của các công ty toàn cầu

- DeepSeek đã gây chấn động thị trường khi công bố chi phí phát triển mô hình AI chỉ 6 triệu USD, đồng thời phát hành miễn phí công nghệ này

- Roadzen, công ty niêm yết trên Nasdaq, sử dụng mô hình DeepSeek-R1 để:
- Giảm thời gian xử lý 80% yêu cầu bồi thường tai nạn nhỏ từ 6 tuần xuống 2 phút
- Tiết kiệm 50% chi phí so với OpenAI, từ 6 xu xuống 3 xu cho mỗi yêu cầu bồi thường
- Xử lý 607.577 yêu cầu bồi thường trong quý 3/2024

- Ooda AI, nền tảng AI của Thụy Điển:
- Tích hợp công nghệ DeepSeek ngay trong ngày đầu ra mắt
- Đánh giá mô hình DeepSeek v3 tốt hơn 20% so với Llama 3.3 của Meta
- Chi phí giải quyết vấn đề hỗ trợ khách hàng giảm 32%, còn 1,875 xu mỗi vấn đề
- Cổ phiếu tăng hơn 1.400% trong năm qua

- CareYaya, nền tảng chăm sóc người cao tuổi:
- Giảm chi phí kháng nghị từ chối bảo hiểm y tế từ 43,84 USD xuống còn 2 xu
- Chi phí giảm 90% so với khi sử dụng OpenAI và Anthropic
- Dự định chuyển phần lớn khoản tiết kiệm cho người tiêu dùng

📌 DeepSeek đã tạo bước ngoặt khi phát triển mô hình AI chỉ với 6 triệu USD, giúp doanh nghiệp giảm tới 90% chi phí vận hành. Roadzen xử lý 607.577 yêu cầu bồi thường trong quý 3/2024 với chi phí chỉ 3 xu/yêu cầu, trong khi CareYaya giảm chi phí kháng nghị bảo hiểm y tế từ 43,84 USD xuống 2 xu.

https://www.cnbc.com/2025/02/04/how-deepseeks-new-ai-models-are-impacting-the-profits-of-global-companies.html

Cách các mô hình AI mới của DeepSeek đang ảnh hưởng đến lợi nhuận của các công ty toàn cầu

Được đăng vào Thứ Hai, 3/2/2025 - 18:28 EST | Cập nhật 31 phút trước

DeepSeek của Trung Quốc đã làm rung chuyển thị trường chứng khoán toàn cầu sau khi tiết lộ rằng họ đã xây dựng một mô hình trí tuệ nhân tạo mạnh mẽ chỉ với 6 triệu USD. Mặc dù một số người nghi ngờ về chi phí phát triển mô hình AI thấp đến đáng kinh ngạc này, hầu hết đều đồng ý rằng DeepSeek đã cắt giảm đáng kể chi phí vận hành liên tục của các mô hình AI mạnh mẽ và quyết định phát hành miễn phí công nghệ của họ đã làm thay đổi cục diện ngành công nghiệp. CNBC Pro đã trao đổi với các công ty trên toàn thế giới để tìm hiểu cách các mô hình AI mới của DeepSeek sẽ tác động đến hoạt động và tài chính của họ.

Roadzen, một công ty niêm yết trên sàn Nasdaq, đang cố gắng cách mạng hóa lĩnh vực bảo hiểm ô tô bằng trí tuệ nhân tạo. Theo giám đốc điều hành Rohan Malhotra, dịch vụ AI của công ty này giúp khách hàng là các công ty bảo hiểm rút ngắn thời gian xử lý 80% các yêu cầu bồi thường tai nạn nhỏ từ 6 tuần xuống còn 2 phút.

Tính chất nhạy cảm của việc xử lý yêu cầu bồi thường bảo hiểm, cùng với khả năng dự đoán sai các khoản chi phí lớn cho khách hàng bảo hiểm, có nghĩa là công ty trước đây chỉ sử dụng một số mô hình AI tinh vi nhất để đảm bảo độ chính xác cao—chẳng hạn như các mô hình của OpenAI, Anthropic và Meta. Điều đó đã thay đổi khi DeepSeek ra mắt mô hình R1.

"Khách hàng của chúng tôi không thể chấp nhận một mô hình có độ chính xác chỉ 60%-70%, điều đó sẽ gây ra vấn đề kinh tế nghiêm trọng," Malhotra nói. "Chúng tôi cần triển khai các mô hình có độ chính xác từ 95%-99%."

DeepSeek giúp giảm chi phí

Malhotra, người có bằng thạc sĩ về robot tại Đại học Carnegie Mellon, cho biết chất lượng đầu ra của DeepSeek-R1 ngang bằng với OpenAI o1—mô hình ngôn ngữ lớn tốt nhất của OpenAI—trong khi vẫn mang lại những lợi ích quan trọng khác cho công ty ông, bao gồm chi phí thấp hơn.

Ví dụ, trong 3 tháng kết thúc vào tháng 9/2024, Roadzen đã xử lý 607.577 yêu cầu bồi thường bảo hiểm. Theo công ty, mỗi yêu cầu tiêu tốn khoảng 4.000 token. Một token là đơn vị dữ liệu nhỏ nhất được cung cấp cho mô hình AI. Khoảng 750 từ tương đương với 1.000 token.

Theo tính toán của CNBC dựa trên bảng giá công khai, nếu sử dụng mô hình ngôn ngữ lớn o1 mới nhất của OpenAI, công ty sẽ phải trả 36.455 USD trong quý đó, tức trung bình 6 cent cho mỗi yêu cầu.

Tuy nhiên, nếu sử dụng DeepSeek-R1, chi phí trong quý chỉ là 17.012 USD, theo giá từ công ty lưu trữ mô hình AI Together.ai. Điều này có nghĩa là chi phí trung bình cho mỗi yêu cầu giảm xuống còn 3 cent, tức thấp hơn 50% so với khi dùng mô hình của OpenAI.

Roadzen tiết lộ rằng công ty còn phải chịu thêm chi phí khi tinh chỉnh hoặc huấn luyện mô hình AI cho từng chính sách bảo hiểm. Nếu dùng mô hình OpenAI o1, chi phí này sẽ là 21.185 USD, nhưng với DeepSeek R1, con số giảm xuống còn 10.593 USD.

Ngoài ra, công ty còn phải chi thêm cho việc vận hành các mô hình AI độc quyền của mình để ước tính chi phí bồi thường, phát hiện hư hỏng xe qua video và ngăn chặn gian lận, những nhiệm vụ không được hỗ trợ bởi các mô hình thương mại có sẵn.

"Điều chúng tôi thực sự quan tâm là chi phí suy luận, độ chính xác của đầu ra và liệu mô hình này có đáp ứng tốt các tiêu chuẩn mà chúng tôi đặt ra hay không," Malhotra nói thêm.

Đột phá từ mã nguồn mở

Một số công ty khác nói với CNBC rằng ngoài chi phí thấp, quyết định mang tính bước ngoặt của DeepSeek khi mã nguồn mở mô hình suy luận của mình khiến nó hấp dẫn hơn so với các mô hình mã nguồn mở hiện có như Llama của Meta.

Arli Charles Mujkic, CEO và nhà sáng lập nền tảng AI Ooda AI của Thụy Điển, nói với CNBC rằng công ty ông đã tích hợp công nghệ của DeepSeek vào dịch vụ AI của mình "ngay trong ngày nó được ra mắt."

Công ty này điều hành một cửa hàng kỹ thuật số cho phép khách hàng chọn các mô hình AI phù hợp nhất với từng công việc cụ thể. Ooda AI có nhiều nguồn doanh thu khác nhau, bao gồm bán đăng ký theo tháng cho các ứng dụng AI, tính phí cơ bản đối với chương trình AI và token sử dụng, cũng như cung cấp hợp đồng cố định cho khách hàng doanh nghiệp.

Mujkic nhận xét rằng mô hình ngôn ngữ lớn DeepSeek v3—công nghệ cốt lõi của DeepSeek—tốt hơn tới 20% so với Llama 3.3 của Meta, mà ông gọi là "mô hình mã nguồn mở tốt nhất mà chúng tôi từng sử dụng trước đây."

Ooda AI, công ty phục vụ một trong những công ty bảo hiểm y tế lớn nhất tại Đức, cho biết hiện tại chi phí xử lý một vấn đề hỗ trợ khách hàng bằng mô hình AI mã nguồn mở là khoảng 1,875 cent, tương đương 18.750 USD trên mỗi triệu vấn đề. Tuy nhiên, công ty ước tính rằng với mô hình AI của DeepSeek, chi phí này có thể giảm 32%.

Cổ phiếu của Ooda AI, niêm yết trên sàn chứng khoán Stockholm, đã tăng hơn 1.400% trong năm qua. Mujkic kỳ vọng rằng các mô hình AI của DeepSeek sẽ giúp công ty cắt giảm chi phí và cuối cùng tăng lợi nhuận.

"Chi phí rẻ hơn 35% so với các mô hình như Llama, nghĩa là nếu giữ nguyên mức giá hiện tại với khách hàng doanh nghiệp, lợi nhuận của chúng tôi tăng thêm 35%," ông nói với CNBC. "Ngoài ra, khách hàng của chúng tôi—những người phải trả phí cho dịch vụ AI—cũng được hưởng mức giá thấp hơn 35%, vì giá token giảm tương ứng."

Mujkic còn khẳng định rằng mô hình suy luận R1 của DeepSeek "ngang bằng" với OpenAI o1, trong khi chi phí vận hành thấp hơn tới 80%.

"Đây là một sự thay đổi lớn đang diễn ra ngay lúc này," ông nhấn mạnh.

Neal K. Shah, CEO của nền tảng chăm sóc người cao tuổi CareYaya có trụ sở tại Bắc Carolina, cũng nói với CNBC rằng công ty ông—vốn đang sử dụng AI để hỗ trợ khách hàng khiếu nại bảo hiểm y tế—rất hào hứng với DeepSeek.

"DeepSeek giúp chúng tôi giảm 90% chi phí, nhờ đó có thể giúp được nhiều người hơn," Shah nhắn tin.

Chi phí trung bình để kháng nghị một yêu cầu bồi thường bảo hiểm y tế tại Mỹ là 43,84 USD. CareYaya trước đây đã sử dụng OpenAI và Anthropic để giảm chi phí xuống còn 12 cent, nhưng giờ đây, với DeepSeek, chi phí mỗi lần kháng nghị chỉ còn 2 cent.

Khi được hỏi liệu DeepSeek có cải thiện lợi nhuận của CareYaya hay không, Shah ngay lập tức trả lời:

"Có. Đây là một bước nhảy vọt trong việc giảm chi phí. Chúng tôi sẽ chuyển phần lớn khoản tiết kiệm này cho khách hàng, nhờ đó có thể phục vụ nhiều người hơn."

Chi phí AI đang trở nên không đáng kể

Mặc dù chi phí AI đã giảm đáng kể trong 2 năm qua, các công ty không kỳ vọng rằng giá dịch vụ AI cho người dùng cuối sẽ giảm theo cùng một tốc độ.

Malhotra của Roadzen cho biết chi phí AI chỉ chiếm một phần rất nhỏ trong mức phí 150 USD cho mỗi yêu cầu bồi thường mà công ty tính cho khách hàng bảo hiểm tại các thị trường phương Tây. Phần lớn chi phí vẫn dành cho nghiên cứu, phát triển và tích hợp AI vào các hệ thống cũ của doanh nghiệp lớn.

Tuy nhiên, ông tin rằng chi phí AI giảm trong tương lai có thể thúc đẩy tự động hóa ở các thị trường mới nổi, nơi chi phí lao động hiện vẫn cạnh tranh với AI.

"Với một thị trường phát triển cao, mức giá 150 USD là hợp lý. Nhưng khi chi phí suy luận đủ thấp, chúng tôi có thể triển khai AI trên toàn cầu," Malhotra kết luận.

How DeepSeek’s new AI models are impacting the profits of global companies
Published Mon, Feb 3 2025•6:28 PM EST|Updated 31 Min Ago

China’s DeepSeek shook global stock markets after revealing that it had built a powerful artificial intelligence model for a mere $6 million. While some have disputed the shockingly low cost of developing the AI models, most agree that DeepSeek has sharply cut the on-going cost of running powerful AI models and that the firm’s decision to release its technology for free has altered the course of the industry. CNBC Pro spoke to companies around the world on how DeepSeek’s new AI models are set to impact their operations and financials. Roadzen , a Nasdaq-listed company, is attempting to disrupt the auto insurance sector with artificial intelligence. The company’s AI service helps its insurance underwriting clients to cut the time taken to resolve 80% of minor accident claims from six weeks to two minutes, according to its chief executive Rohan Malhotra. The sensitive nature of processing insurance claims, alongside the potential for incorrectly predicting large costs for insurance clients, means the company has previously limited itself to a handful of sophisticated AI models that produce accurate results — such as those produced by OpenAI, Anthropic and Meta . That was until DeepSeek released its R1 model. “Our clients cannot afford a model which has 60%-70% accuracy, that’s like a major economic issue,” said Malhotra. “We need to deploy models that have 95%-99% accuracy.” DeepSeek’s discount Malhotra, who graduated with a master’s degree in robotics from Carnegie Mellon University, said DeepSeek-R1 output quality is on par with OpenAI’s o1 — its best large language model — while also offering other benefits that are significant to his company, including costs. For instance, Roadzen processed 607,577 insurance claims for the three months ending September 2024. Each claim consumes roughly 4,000 tokens, according to the company. A token is the smallest unit of data fed to an AI model. About 750 words converts to 1,000 tokens. The AI firm would have incurred a cost of $36,455 over the quarter using OpenAI’s latest large language model o1, according to CNBC calculations using publicly available pricing. That means on average, the company spent 6 cents per claim on AI costs. However, using DeepSeek-R1, the quarterly cost of $17,012, calculated using prices from AI model hosting firm Together.ai, would amount to 3 cents per claim, or 50% lower than costs incurred with OpenAI’s models. Roadzen revealed that the firm incurs additional costs when fine-tuning or training an AI model on a per-policy basis, which would have amounted to $21,185 using the OpenAI o1 model, or $10,593 on DeepSeek’s R1. In addition, it also faces additional costs to run its proprietary AI models that are used to estimate the cost of claims, detect vehicle damage over video and for fraud prevention among other uses that are not covered by commercially available models. “What we really care about is the cost of inference. We care about the accuracy of the outputs. And we care about whether this model is performing to the certain benchmarks that we’ve set, in a good way,” Malhotra added. The open-source innovation Others have told CNBC that alongside the lower costs, DeepSeek’s landmark decision to open source its reasoning model makes it more attractive compared to existing open-source models like Meta Platforms’ Llama. Arli Charles Mujkic, CEO and founder of Swedish AI platform Ooda AI, told CNBC his company integrated DeepSeek’s technology into its AI offering “the same day it was out.” The company runs a digital store that offers customers a choice of AI models, allowing them to choose the best app for a specific job. Ooda AI has various revenue sources within the business: it sells pay-per-month subscriptions to AI apps on its store, allows customers to pay a base fee for AI programs and usage tokens, and also offers fixed-term contracts to its enterprise clients. Mujkic said his opinion of DeepSeek’s v3 large language model — the technology that underpins its products — is that it’s up to 20% “better” than Meta’s Llama 3.3, which he labeled “the best open source model we’d been running up until this point.” Ooda AI, which boasts one of Germany’s largest health insurance firms as a clients, said it costs roughly 1.875 U.S. cents per customer support issue, or $18,750 per million, to be resolved using open-source AI models. However, the same tasks are likely to be 32% cheaper when executed on DeepSeek’s AI models, according to the company. The company, whose Stockholm-listed shares have gained more than 1,400% over the past year, is expecting DeepSeek’s AI models to lower its costs — and ultimately boost its revenues. G7H0-FF 1Y line “It’s 35% cheaper [than models like Llama], which means ultimately, for us — without changing any pricing, say on the enterprise side — we start making 35% more money,” he told CNBC. “But also for our customers, who are paying for AI compute, for example, it becomes 35% cheaper as well, because that goes in parallel with the pricing for token users.” DeepSeek’s R1 reasoning model is also “on par” with OpenAI’s o1, Mujkic argued, while running as much as 80% cheaper. “This is the kind of paradigm shift that’s happening now,” he said. Neal K. Shah, CEO of North Carolina-based eldercare platform CareYaya, also told CNBC his company — which has started using AI to help customers fight health insurance claims denials — was excited about DeepSeek. “DeepSeek just lowered our costs by 90% so we can help more people,” he said in a message. “The average cost to appeal a U.S. health insurance claims denial is $43.84. We had used OpenAI and Anthropic to get the cost down to 12 cents — now we’re doing it with DeepSeek on the back end, the cost per appeal is 2 cents.” Asked if DeepSeek would boost CareYaya’s bottom line, Shah’s immediate response was “yes.” “It’s a ridiculous step function in lowering costs,” he explained. “We’ll pass along a lot of the savings to the consumer, so it’ll let us serve more people.” AI’s negligible costs Despite the cost of AI falling substantially over the past two years, companies do not expect the cost of rendering AI services to end users to fall at the same rate. Roadzen’s Malhotra suggested that AI costs are a tiny fraction of the roughly $150 per claim it charges its insurance clients in Western markets. The bulk of its costs are spent on research and development and connecting legacy systems at large enterprises with its AI systems. However, he expects lower AI costs in the future could enable automation in emerging markets, where labor costs are still competitive with AI systems today. “As a global company, the $150 may be a price for a highly developed market. When we lower the inferencing cost enough, we can now deploy it globally,” Malhotra added.

Không có file đính kèm.

Nguồn tham khảo

106

AI mở-nguồn mở AI market 2025-02-04 12:48:43

DeepSeek-R1 đánh bại OpenAI o1: Nhanh hơn 2.4 lần, rẻ hơn 23 lần!

DeepSeek-R1, mô hình AI nguồn mở của startup Trung Quốc DeepSeek, đang thách thức OpenAI o1 nhờ khả năng xử lý vượt trội và chi phí thấp đáng kể.
Ra mắt vào 20/01/2025, DeepSeek-R1 được thử nghiệm với nhiều tác vụ thực tế như giải toán, suy luận logic, mô hình tài chính và lập trình phần mềm.
Hiệu suất tổng thể:
- Tốc độ xử lý: DeepSeek-R1 nhanh hơn 2.4 lần so với OpenAI o1.
- Tổng chi phí: DeepSeek-R1 tiết kiệm hơn 23 lần với giá chỉ $0.00078, trong khi OpenAI o1 tốn $0.0183 cho cùng khối lượng xử lý.
- Tổng số token: DeepSeek-R1 sử dụng 390 token, ít hơn đáng kể so với 916 token của OpenAI o1.

So sánh theo từng bài toán

Suy luận logic: DeepSeek-R1 đạt độ chính xác tương đương OpenAI o1 nhưng xử lý nhanh gấp 4 lần với chi phí chỉ $0.00004 so với $0.0008.
Bài toán tập hợp: DeepSeek-R1 đưa ra lời giải rõ ràng hơn, nhanh hơn 3 lần với chi phí $0.00008 (OpenAI o1 là $0.0013).
Tính toán số học: Cả hai mô hình đều chính xác, nhưng DeepSeek-R1 xử lý nhanh hơn 2 lần, tiết kiệm chi phí gấp 20 lần.
Mô hình tài chính: DeepSeek-R1 phân tích hiệu quả hơn 2.7 lần, giảm chi phí xuống chỉ còn $0.00010, trong khi OpenAI o1 tốn $0.0022.
Lập trình:
- Viết hàm tìm phần tử phổ biến nhất trong mảng: DeepSeek-R1 cung cấp mã tối ưu, chạy nhanh hơn 2 lần.
- Thiết kế thuật toán nhận diện số đối xứng hoàn hảo: DeepSeek-R1 xử lý nhanh hơn 2.5 lần.

Khuyến nghị sử dụng

Doanh nghiệp cần hiệu suất cao, chi phí thấp → DeepSeek-R1.
Môi trường giáo dục, đào tạo → OpenAI o1 (có lời giải chi tiết hơn).
Phát triển phần mềm, AI triển khai thực tế → DeepSeek-R1 nhờ tốc độ cao và chi phí thấp.

📌

DeepSeek-R1 đang soán ngôi OpenAI o1 với khả năng xử lý nhanh hơn 2.4 lần và tiết kiệm chi phí gấp 23 lần. Qua các bài kiểm tra thực tế, DeepSeek-R1 không chỉ tăng tốc độ xử lý mà còn cắt giảm tài nguyên, làm cho AI trở nên dễ tiếp cận hơn cho doanh nghiệp và nhà phát triển. Với khả năng xử lý logic, toán học, tài chính và lập trình vượt trội, DeepSeek-R1 là lựa chọn hàng đầu cho các hệ thống AI thời gian thực, API quy mô lớn và ứng dụng doanh nghiệp. 🚀

https://venturebeat.com/ai/open-source-revolution-how-deepseek-r1-challenges-openais-o1-with-superior-processing-cost-efficiency/

Không có file đính kèm.

Nguồn tham khảo

105

AI mở-nguồn mở Semi-Cloud-DC-Green 2025-02-04 12:45:08

DeepSeek R1 hiện có sẵn trên Nvidia, AWS và GitHub, đạt hơn 3.374 mô hình trên Hugging Face

📝 SEO Content

DeepSeek R1, mô hình AI nguồn mở tiên tiến, đã mở rộng khả năng tiếp cận khi có mặt trên Nvidia, AWS và GitHub.
Số lượng mô hình dựa trên DeepSeek R1 trên nền tảng Hugging Face hiện đạt 3.374, chứng tỏ tốc độ phổ biến nhanh chóng.
Nvidia đã tích hợp DeepSeek-R1 như một microservice NIM, tận dụng kiến trúc Hopper và FP8 Transformer Engine, giúp tăng tốc độ và chất lượng phản hồi thời gian thực.
DeepSeek-R1 chạy trên hệ thống HGX H200 và có thể tạo ra 3.872 token mỗi giây, hỗ trợ các ứng dụng AI hiệu suất cao.
Trên AWS, mô hình này có thể truy cập qua Amazon Bedrock để đơn giản hóa việc tích hợp API và Amazon SageMaker để tùy chỉnh và huấn luyện nâng cao.
AWS còn cung cấp phiên bản nhẹ hơn, DeepSeek-R1-Distill, thông qua Amazon Bedrock Custom Model Import, cho phép triển khai serverless giúp tiết kiệm chi phí.
Microsoft Azure và GitHub cũng mở rộng hỗ trợ, giúp các nhà phát triển tích hợp AI vào workflow của họ một cách an toàn và có kiểm soát.
Microsoft đã triển khai các biện pháp bảo mật mạnh mẽ như lọc nội dung và đánh giá tự động, đồng thời có kế hoạch cung cấp phiên bản tinh gọn của DeepSeek-R1 để triển khai cục bộ trên Copilot+ PC trong tương lai.
DeepSeek R1 nổi bật nhờ khả năng tư duy logic nâng cao, cung cấp ngữ cảnh lên đến 128.000 token, vượt trội hơn nhiều so với các mô hình phổ biến hiện nay.
Chi phí huấn luyện DeepSeek-R1 chỉ 6 triệu USD, thấp hơn khoảng 95% so với các mô hình cùng cấp từ Nvidia và Microsoft.
Mô hình này đang thách thức các AI hàng đầu như ChatGPT, nhờ sự cân bằng giữa hiệu suất cao và chi phí thấp.

📌

DeepSeek R1 đang làm khuynh đảo thế giới AI với khả năng mở rộng mạnh mẽ, hiệu suất cao và chi phí huấn luyện chỉ 6 triệu USD. Hiện có mặt trên Nvidia, AWS, Microsoft Azure và GitHub, mô hình này đã đạt 3.374 phiên bản trên Hugging Face. Với 671 tỷ tham số, tốc độ tạo 3.872 token/giây và khả năng xử lý 128.000 token ngữ cảnh, DeepSeek R1 đang trở thành đối thủ đáng gờm của ChatGPT và các mô hình AI lớn khác. 🚀

https://www.techradar.com/computing/software/deepseek-r1-is-now-available-on-nvidia-aws-and-github-as-available-models-on-hugging-face-shot-past-3-000

Không có file đính kèm.

Nguồn tham khảo

106

AI smartphone AI mở-nguồn mở 2025-02-04 12:40:51

iPhone trong tương lai được đồn đại sẽ sử dụng DeepSeek R1 AI do Huawei cung cấp

Apple được cho là sẽ tích hợp mô hình AI DeepSeek R1 do Huawei phát triển vào các dòng iPhone tương lai dành riêng cho thị trường Trung Quốc.
DeepSeek R1 là một mô hình AI nguồn mở mạnh mẽ, có khả năng suy luận tương đương với ChatGPT nhưng có chi phí thấp hơn và dễ vận hành hơn.
Lý do Apple lựa chọn DeepSeek R1:
- Do quy định nghiêm ngặt của Trung Quốc, Apple không thể triển khai Apple Intelligence (mô hình AI nội bộ của Apple) tại đây.
- Apple cần một giải pháp AI "nội địa hóa" để đáp ứng yêu cầu của chính phủ Trung Quốc và Huawei-powered DeepSeek R1 AI có thể là lựa chọn phù hợp.
- AI của DeepSeek có thể hoạt động tốt trong hệ sinh thái iPhone mà không vi phạm tiêu chuẩn bảo mật và kiểm duyệt nội dung của Trung Quốc.
Tình hình AI trên iPhone tại Trung Quốc:
- iPhone 16 series ra mắt năm 2024 tại Trung Quốc không có AI, khiến Apple bị cạnh tranh khốc liệt bởi các hãng nội địa như Huawei, Xiaomi.
- Sự thiếu vắng AI khiến Apple bị giảm doanh số mạnh, đặc biệt khi Huawei ra mắt điện thoại gập 3 màn hình (tri-fold) và các mẫu điện thoại AI tiên tiến.
- Để lấy lại thị phần, Apple có kế hoạch đưa AI vào iPhone tại Trung Quốc trong năm 2025, có thể bắt đầu từ iOS 19.
Việc Apple hợp tác với Huawei có thể mang lại lợi ích lớn:
- DeepSeek R1 có lợi thế nội địa, giúp Apple tránh các vấn đề pháp lý.
- AI này có thể được tối ưu hóa tốt hơn cho người dùng Trung Quốc so với ChatGPT hay Gemini.
- Việc hợp tác này có thể giúp Apple duy trì vị thế tại thị trường Trung Quốc, vốn đang bị đe dọa bởi sự trỗi dậy của Huawei.
Quá trình thử nghiệm nội bộ đã bắt đầu, nhưng có thể phải chờ đến khi iOS 19 ra mắt để AI trên iPhone Trung Quốc chính thức hoạt động.

📌

Apple có thể sử dụng DeepSeek R1 AI do Huawei cung cấp để khắc phục khủng hoảng AI trên iPhone tại Trung Quốc. Quyết định này có thể giúp Apple tuân thủ quy định địa phương, cung cấp AI mạnh mẽ hơn cho khách hàng Trung Quốc và cạnh tranh với các đối thủ nội địa. Tuy nhiên, người dùng có thể phải chờ đến iOS 19 mới có thể trải nghiệm AI này. Đây có thể là một bước đi chiến lược quan trọng của Apple tại Trung Quốc! 📱🚀

https://www.huaweicentral.com/future-iphones-rumored-to-use-huawei-powered-deepseek-r1-ai/

Không có file đính kèm.

Nguồn tham khảo

116

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền STI 2025-02-04 12:37:50

DeepSeek mở ra cơ hội để Trung Quốc trở thành "quốc gia nguồn mở"?

DeepSeek, một công ty khởi nghiệp ít tên tuổi của Trung Quốc, đang gây chấn động trong ngành AI toàn cầu, khiến nhiều chuyên gia đặt câu hỏi liệu đây có phải là cơ hội để Trung Quốc chuyển đổi thành một quốc gia AI nguồn mở.
Các chuyên gia kêu gọi Bắc Kinh cải tổ chính sách công nghệ để thúc đẩy đổi mới và giữ chân nhân tài trong bối cảnh cạnh tranh ngày càng gay gắt với Mỹ.
Một bài viết của viện nghiên cứu độc lập Institute of Public Policy, trực thuộc Đại học Công nghệ Hoa Nam, nhấn mạnh rằng tư duy quản lý cứng nhắc đang làm suy yếu ngành công nghệ của Trung Quốc.
Các tác giả bài viết gồm Jiang Yuhao (nhà nghiên cứu) và Jia Kai (phó giáo sư tại Đại học Giao Thông Thượng Hải) cho rằng:
- Quy định quá chặt chẽ đã khiến nhiều tài năng công nghệ Trung Quốc rời ra nước ngoài.
- Sự thiếu linh hoạt trong quản lý đã cản trở đổi mới trong nước.
- Khoảng cách công nghệ với Mỹ ngày càng gia tăng do thiếu môi trường khuyến khích sự đột phá.
Bài viết, đăng trên tài khoản WeChat của think tank này, lập luận rằng Bắc Kinh cần “giảm bớt quy định” (deregulation) để không đẩy các công ty công nghệ lớn ra nước ngoài.
Các chuyên gia cảnh báo rằng nếu không thay đổi chính sách, Trung Quốc có thể sẽ "vô tình" thúc đẩy các công ty kỳ lân (unicorns) và doanh nghiệp công nghệ cao di cư sang Mỹ, khiến khoảng cách giữa hai nước càng xa hơn.
Trong bối cảnh này, sự thành công của DeepSeek có thể là bằng chứng cho thấy AI nguồn mở có thể là hướng đi tiềm năng cho Trung Quốc, nếu chính phủ biết cách điều chỉnh chính sách phù hợp.
Trung Quốc từ lâu đã duy trì cách tiếp cận quản lý thận trọng và chặt chẽ đối với công nghệ, đặc biệt là AI, nhưng điều này có thể không còn phù hợp khi ngành AI đang phát triển nhanh chóng.
DeepSeek R1, mô hình AI nguồn mở mới ra mắt, có thể là minh chứng cho thấy Trung Quốc có khả năng cạnh tranh với phương Tây mà không cần phụ thuộc vào các công ty Mỹ như OpenAI.

📌

DeepSeek có thể trở thành biểu tượng của một Trung Quốc nguồn mở, nhưng để làm được điều đó, Bắc Kinh cần giảm bớt kiểm soát và tạo điều kiện thuận lợi hơn cho đổi mới công nghệ. Nếu không, nước này có nguy cơ đẩy các công ty công nghệ hàng đầu ra nước ngoài, khiến khoảng cách công nghệ với Mỹ ngày càng rộng. Sự thành công của DeepSeek có thể là bước ngoặt để Trung Quốc xem xét lại chiến lược quản lý AI, hướng tới một môi trường cởi mở hơn. 🚀

https://www.scmp.com/news/china/diplomacy/article/3297200/chinas-deepseek-moment-chance-transform-open-source-nation

Không có file đính kèm.

Nguồn tham khảo

162

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2025-02-04 12:34:30

AI DeepSeek của Trung Quốc có thể giúp thúc đẩy sự đổi mới ở các quốc gia như Nga như thế nào

📢 SEO nội dung:

Công ty khởi nghiệp AI Trung Quốc DeepSeek đang trở thành tâm điểm tranh cãi ở phương Tây vì lo ngại về an ninh quốc gia và quyền riêng tư.
DeepSeek R1, mô hình AI nguồn mở của công ty, ra mắt vào tháng trước và có năng lực tương đương với GPT của OpenAI nhưng với chi phí thấp hơn đáng kể.
Sự phát triển nhanh chóng của DeepSeek đặt ra câu hỏi về hiệu quả của các biện pháp hạn chế công nghệ của Mỹ đối với Trung Quốc trong việc kìm hãm sự phát triển công nghệ cao của nước này.
Nga cũng chịu các lệnh trừng phạt nghiêm ngặt từ Mỹ và phương Tây, đặc biệt là về công nghệ và chất bán dẫn, sau cuộc xung đột với Ukraine.
Các nhà phân tích nhận định rằng DeepSeek có thể mang lại cơ hội công nghệ cho Nga, giúp nước này tiếp cận AI tiên tiến mà không cần dựa vào các công ty phương Tây.
Ngân hàng SberBank của Nga đã công bố một mô hình AI mới vào tháng 11/2024, trong đó sử dụng mã nguồn từ DeepSeek làm nền tảng. Điều này cho thấy Nga đang khai thác công nghệ AI của Trung Quốc để phát triển nội lực.
You Chuanman, giảng viên cao cấp tại Đại học Khoa học Xã hội Singapore, cho rằng dù Nga có đội ngũ nhân tài mạnh, nhưng lệnh trừng phạt về tài chính, công nghệ lõi và chất bán dẫn đối với nước này còn nghiêm ngặt hơn cả Trung Quốc.
Trong bối cảnh đó, hợp tác công nghệ giữa Nga và Trung Quốc có thể sẽ sâu rộng hơn, với Trung Quốc đóng vai trò là nguồn cung cấp AI và các giải pháp công nghệ cho Nga.
Chiến lược cấm vận công nghệ của Mỹ nhằm vào Trung Quốc và Nga có thể đang gặp thách thức, khi các công ty như DeepSeek chứng minh rằng họ vẫn có thể phát triển AI tiên tiến bất chấp hạn chế về chip và phần cứng.
Sự trỗi dậy của DeepSeek cho thấy AI nguồn mở có thể trở thành công cụ quan trọng giúp các quốc gia bị trừng phạt vượt qua rào cản công nghệ do phương Tây áp đặt.

📌

DeepSeek đang nổi lên như một nhân tố quan trọng trong cuộc đua công nghệ AI toàn cầu, không chỉ đối với Trung Quốc mà còn tiềm năng hỗ trợ Nga. Việc SberBank sử dụng mã nguồn của DeepSeek chứng tỏ AI nguồn mở đang tạo ra ảnh hưởng ngoài mong đợi, đặc biệt với những nước bị hạn chế công nghệ. Điều này đặt ra thách thức lớn đối với chính sách kiểm soát công nghệ của Mỹ, khi Trung Quốc và Nga có thể tìm ra con đường phát triển AI mà không cần công nghệ phương Tây. 🚀

https://www.scmp.com/news/china/diplomacy/article/3297211/how-chinese-ai-start-deepseek-may-help-drive-innovation-countries-russia

Không có file đính kèm.

Nguồn tham khảo

149

AI market AI mở-nguồn mở 2025-02-03 21:04:23

DeepSeek bùng nổ tại Trung Quốc: Bước đột phá AI hay mối lo kiểm duyệt?

DeepSeek nhanh chóng trở thành một trong những AI chatbot phổ biến nhất tại Trung Quốc, với khả năng cạnh tranh trực tiếp với ChatGPT của OpenAI.
Người dùng ấn tượng với khả năng phân tích và logic của DeepSeek, nhiều người Trung Quốc cho rằng nó hiệu quả hơn ChatGPT, giúp tiết kiệm thời gian chỉnh sửa nội dung.
DeepSeek R1 ra mắt ngày 20/1/2025, trở thành ứng dụng miễn phí số 1 trên App Store của Apple, gây chấn động thị trường chứng khoán Mỹ.
Phản ứng của Trung Quốc:
- Truyền thông và chính phủ ca ngợi DeepSeek như một thành tựu AI mang tầm quốc gia.
- Người dùng Trung Quốc xem đây là “món quà Tết Nguyên Đán tuyệt vời”.
- Nhiều người hủy đăng ký ChatGPT để chuyển sang DeepSeek.
Vấn đề kiểm duyệt và bảo mật dữ liệu:
- DeepSeek chặn các câu hỏi liên quan đến các chủ đề nhạy cảm, như sự kiện Thiên An Môn 1989.
- Lo ngại về giám sát dữ liệu: Chính phủ Australia và nhiều chuyên gia công nghệ cảnh báo người dùng không nên nhập dữ liệu cá nhân vào AI của Trung Quốc.
- Giáo sư Nicholas Davis (Đại học Công nghệ Sydney) nhận định:
  - Mọi AI đều có sự kiểm duyệt, nhưng DeepSeek bị kiểm soát nội dung bởi chính quyền Trung Quốc.
  - Nguy cơ mất dữ liệu cá nhân quan trọng hơn vấn đề kiểm duyệt nội dung.
DeepSeek có thể chạy cục bộ mà không cần internet, điều này giúp người dùng tránh phụ thuộc vào máy chủ đám mây như ChatGPT hay Claude.
Một bước đột phá đáng quan tâm:
- Khả năng mã nguồn mở của DeepSeek có thể giúp cộng đồng hiểu rõ hơn về công nghệ AI.
- Nếu DeepSeek tiếp tục phát triển, nó có thể trở thành một nền tảng AI mạnh mẽ và có tác động lớn trên toàn cầu.

📌 DeepSeek đang làm rung chuyển thị trường AI, đặc biệt là tại Trung Quốc. Nó mang lại một sự lựa chọn thay thế cho ChatGPT, nhưng cũng đi kèm với những lo ngại về kiểm duyệt và quyền riêng tư. Trong khi một số chuyên gia khen ngợi khả năng mã nguồn mở, những vấn đề liên quan đến dữ liệu cá nhân và kiểm soát thông tin vẫn là rào cản lớn. Liệu DeepSeek có thể trở thành đối thủ thực sự của các AI phương Tây hay không? Điều này còn tùy thuộc vào cách nó phát triển trong tương lai.

https://www.abc.net.au/news/2025-02-03/deepseek-celebrated-in-china-despite-concerns-abroad/104869272

Không có file đính kèm.

Nguồn tham khảo

100

AI mở-nguồn mở AI market 2025-02-03 20:43:39

DeepSeek không phải là khoảnh khắc Sputnik, mà là khoảnh khắc Model T

DeepSeek R1 tạo ra sự chú ý lớn trong công chúng, tương tự như ChatGPT vào năm 2022. Sự kiện này khiến nhiều người đặt câu hỏi về vị thế của Trung Quốc trong cuộc đua AI.
Một số quan điểm chính về DeepSeek R1 bao gồm:
- Quan điểm địa chính trị: DeepSeek đã phá vỡ nhận định rằng Trung Quốc tụt hậu 1-2 năm so với Mỹ trong AI. Thực tế, khoảng cách chỉ còn vài tháng, và Trung Quốc không chỉ "sao chép" mà còn cải tiến kỹ thuật với Mixture of Experts (MOE) và Multi-Head Latent Attention (MLA).
- Quan điểm chính sách thương mại: Việc DeepSeek vươn lên mạnh mẽ khiến nhiều người nghi ngờ về hiệu quả của chính sách kiểm soát xuất khẩu chip. Tuy nhiên, nhiều chip mà DeepSeek sử dụng thực tế đã được mua trước khi lệnh cấm có hiệu lực.
- Quan điểm kinh tế: Nếu chi phí đào tạo R1 thấp hơn đáng kể so với các mô hình khác, điều này có thể ảnh hưởng đến Nvidia (giảm nhu cầu chip) và OpenAI (giảm lợi nhuận từ các mô hình độc quyền). Nhưng thực tế, giá cổ phiếu Nvidia bị ảnh hưởng bởi tin đồn về thuế quan của Trump đối với Đài Loan, và OpenAI vẫn thu hút đầu tư lớn (40 tỷ USD).
- Quan điểm sản phẩm: Ứng dụng DeepSeek trở nên phổ biến nhờ khả năng hiển thị quá trình suy luận theo thời gian thực, tạo ra trải nghiệm mới mẻ cho người dùng. Điều này gợi nhớ đến sự phổ biến của các ứng dụng Trung Quốc như TikTok.
- Quan điểm chính trị: Nhiều người cảm thấy hả hê khi Silicon Valley và chính quyền Trump gặp thách thức từ DeepSeek. Chính quyền Trump đã đưa ra nhiều sắc lệnh hành pháp liên quan đến AI và thương mại.
Điểm nhấn quan trọng: DeepSeek R1 không phải là Sputnik moment, mà là Model T moment của AI
- Ford Model T đã khiến ô tô trở thành sản phẩm đại trà, và DeepSeek R1 có thể làm điều tương tự với AI.
- Đây là mô hình suy luận đầu tiên có năng lực vượt trội con người trong toán học và lập trình, được phát hành dưới dạng mã nguồn mở.
- Chi phí đào tạo và vận hành rất thấp – dù con số chính xác còn tranh cãi, nhưng rõ ràng rẻ hơn ít nhất một bậc so với các mô hình tương tự.
- Kỷ nguyên mới: inference-time compute – mô hình sử dụng sức mạnh tính toán ngay trong lúc tạo ra câu trả lời, không chỉ trong quá trình huấn luyện.
- Khả năng mở rộng nhanh chóng: Một công ty khởi nghiệp nhỏ, sử dụng chip cũ, nhưng có thể đạt hiệu suất hàng đầu chỉ trong vài tháng, cho thấy sự bùng nổ AI mạnh mẽ trong tương lai gần.
- AI "rẻ đến mức không cần đo đếm" sẽ xuất hiện khắp nơi, thay đổi hoàn toàn cách con người tiếp cận trí tuệ nhân tạo.
- Lợi ích cho các nước đang phát triển và các công ty AI nhỏ: Ấn Độ đặc biệt quan tâm đến xu hướng này, mở ra cơ hội cho các nước thuộc Global South.

📌
DeepSeek R1 không chỉ đánh dấu sự cạnh tranh gay gắt giữa Mỹ và Trung Quốc trong lĩnh vực AI, mà còn báo hiệu sự bùng nổ của các mô hình AI suy luận với chi phí rẻ và khả năng phổ biến rộng rãi. Mô hình này có thể khiến AI trở thành một sản phẩm đại trà, giống như cách Model T đã làm với ô tô. Điều này mang lại cơ hội lớn cho các nước đang phát triển và các startup AI nhỏ, nhưng cũng đặt ra câu hỏi về tương lai của con người khi AI có thể thay thế lợi thế trí tuệ của chúng ta.

https://3quarksdaily.com/3quarksdaily/2025/02/deepseek-is-not-a-sputnik-moment-it-is-a-model-t-moment.html

DeepSeek không phải là khoảnh khắc Sputnik, mà là khoảnh khắc Model T
Đăng vào Thứ Hai, 3 tháng 2, 2025 6:00AM bởi Malcolm Murray
bởi Malcolm Murray

Là một người suy nghĩ về AI mỗi ngày, tôi luôn thấy thú vị khi những sự kiện trong lĩnh vực AI vượt ra khỏi phạm vi của những người quan tâm đến AI và thu hút sự chú ý của công chúng. ChatGPT vào tháng 11 năm 2022 chắc chắn là một trong số đó. Khả năng tạo podcast của NotebookLM từ Google gần như đạt đến mức độ lan truyền đại chúng, nhưng vẫn chưa đủ để nhận được tin nhắn từ bà ngoại. Tuy nhiên, tuần này, với sự ra mắt mô hình R1 của DeepSeek, lại có thêm một sự kiện đạt đến tầm cỡ của ChatGPT, một lần nữa khiến vợ/chồng và đồng nghiệp nhắn tin đặt câu hỏi.

Đã có hàng nghìn bài phân tích về chủ đề này, và tôi xin lỗi trước nếu bạn đã cảm thấy chán. Tuy nhiên, tôi hy vọng bài viết này có thể mang lại điều mà Brad DeLong gọi là "Giá trị trên mức thay thế", bằng cách giúp bạn hiểu được những quan điểm khác nhau phù hợp như thế nào với bức tranh tổng thể hiện tại. Tôi cũng muốn nhấn mạnh khía cạnh “Model T”, điều mà tôi cho rằng chưa được chú ý đúng mức.

Trước tiên, chúng ta có cách tiếp cận địa chính trị, hay cụ thể hơn là khoảng cách giữa Mỹ và Trung Quốc. Đây là lý do tại sao Marc Andreessen và nhiều người khác gọi DeepSeek là một “khoảnh khắc Sputnik”. Trước đây, giả định phổ biến là Trung Quốc đi sau Mỹ khoảng 1-2 năm trong việc phát triển các mô hình AI. Tuy nhiên, giả định này đã sụp đổ trong tuần này; thực tế, Trung Quốc chỉ chậm hơn Mỹ vài tháng. Điều này cũng liên quan đến quan điểm lâu nay ở Mỹ rằng Trung Quốc chỉ là kẻ đi theo nhanh, chỉ có thể sao chép Mỹ. Quan điểm này đã bị các kỹ sư DeepSeek bác bỏ bằng cách tiên phong một số kỹ thuật học máy rất thông minh, như tăng hiệu suất nhờ tận dụng tốt hơn Mixture of Experts (MOE) và Multi-Head Latent Attention (MLA). Vì vậy, không có gì ngạc nhiên khi điều này gây sốc với nhiều người Mỹ. Tuy nhiên, phép so sánh với Sputnik có phần không hợp lý. Xét đến việc Mỹ đã tập trung rất nhiều vào AI và đang đầu tư hàng trăm tỷ USD vào lĩnh vực này, không rõ “khoảnh khắc Sputnik” này sẽ thay đổi điều gì. Trump, Altman và các cộng sự vừa công bố khoản tài trợ 500 tỷ USD cho Stargate, vậy họ sẽ phản ứng với DeepSeek bằng cách công bố thêm 500 tỷ USD nữa sao? Điều đó có vẻ khó xảy ra, vì phần lớn số tiền trong gói Stargate thực ra đã được cam kết từ nhiều năm trước, và phần còn lại có thể chỉ là những con số trên giấy, không thực sự tồn tại.

Thứ hai, có góc nhìn về chính sách thương mại, hay nói cụ thể hơn là đặt câu hỏi về hiệu quả của các biện pháp kiểm soát xuất khẩu. Nhiều người coi thành công của DeepSeek là dấu hiệu cho thấy các biện pháp kiểm soát xuất khẩu chip không hiệu quả. Đây là một trong số ít lĩnh vực mà chính quyền Biden và Trump có sự đồng thuận, và Trump được cho là sẽ giữ nguyên các hạn chế mà Biden đã áp đặt. Tuy nhiên, giả định này cũng đã sụp đổ đối với nhiều người, với lập luận rằng “xem kìa, nó phản tác dụng, chúng ta quên mất rằng nhu cầu là mẹ của sáng tạo – điều này chỉ khiến Trung Quốc càng có động lực đổi mới hơn”. Đây là một cách nhìn nhận tự nhiên, nhưng không chính xác. Trước tiên, nó phản ánh sự hiểu sai về dòng thời gian, vì hầu hết số chip mà DeepSeek sử dụng đã được mua trước khi các lệnh hạn chế có hiệu lực. Ngoài ra, lập luận này còn sai lầm ở chỗ cho rằng DeepSeek sẽ không đạt được hiệu năng cao hơn nếu có nhiều chip hơn, trong khi thực tế họ sẵn sàng đánh đổi rất nhiều để có thêm chip tốt hơn. Rõ ràng, chip vẫn sẽ tiếp tục đóng vai trò quan trọng. Nếu có điều gì đó rút ra từ DeepSeek, thì đó là bộ ba LLM gồm dữ liệu, năng lực tính toán và thuật toán vẫn còn nguyên giá trị, và chưa có dấu hiệu nào cho thấy chúng sẽ trở thành yếu tố giới hạn trong tương lai gần (DeepSeek cũng sử dụng rất nhiều dữ liệu tổng hợp).

Thứ ba, có góc nhìn kinh tế, hay cụ thể hơn là khoảng cách giữa các mô hình mã nguồn đóng và mã nguồn mở. Giá trị định giá của tất cả các công ty trong chuỗi giá trị AI, từ những công ty niêm yết như Nvidia đến các công ty tư nhân như OpenAI, đã tăng vọt trong những năm qua. Một phần trong mức định giá cao ngất ngưởng này xuất phát từ giả định rằng họ sẽ dần thiết lập được thế độc quyền và tạo ra lợi thế cạnh tranh bền vững. Theo góc nhìn này, với Nvidia, chi phí huấn luyện được cho là thấp hơn nhiều của R1 cho thấy nhu cầu về chip có thể giảm trong tương lai. Còn với OpenAI, việc các mô hình có thể được tái tạo nhanh chóng cho thấy họ sẽ khó có thể duy trì mức lợi nhuận cao từ sản phẩm của mình. Tuy nhiên, lập luận này có thể cũng chưa chính xác. Đối với các công ty đại chúng, sau một thời gian dài giá cổ phiếu tăng liên tục, nhiều nhà quản lý quỹ có lẽ đã nhân cơ hội để chốt lời. Ngoài ra, còn có tin đồn rằng điều thực sự làm thị trường chao đảo là rò rỉ thông tin về việc Trump sắp đe dọa áp thuế đối với Đài Loan. Định giá của OpenAI dường như cũng không bị ảnh hưởng nhiều, nếu những tin đồn gần đây về vòng gọi vốn 40 tỷ USD là đúng. Ngay cả khi lợi thế về mô hình đang dần thu hẹp, nỗ lực chuyển đổi thành một công ty sản phẩm của OpenAI có vẻ đang mang lại kết quả. Dù các mô hình AI có trở nên phổ biến đến mức nào, một vị trí thống lĩnh trong thị trường AI doanh nghiệp vẫn đảm bảo biên lợi nhuận tốt cho OpenAI.

Thứ tư, có góc nhìn về sản phẩm. Một số người cho rằng điều quan trọng trong câu chuyện DeepSeek là các lựa chọn thiết kế sản phẩm. Cụ thể, vì đây là khoảnh khắc "tin nhắn từ bà ngoại" đầu tiên trong lĩnh vực AI sau một thời gian dài, phần lớn sự phát triển AI gần đây đã diễn ra trong âm thầm. Do đó, đây là lần đầu tiên người dùng AI phổ thông được chứng kiến các mô hình thể hiện quá trình Chain-of-Thought (chuỗi suy luận) của mình theo thời gian thực. Đây được xem là một trong những yếu tố giải thích cho mức độ phổ biến ngoài mong đợi của ứng dụng DeepSeek đối với công chúng. Điều này cũng có thể liên quan đến xu hướng thú vị về các ứng dụng Trung Quốc cực kỳ phổ biến tại Mỹ. Thật kỳ lạ khi chứng kiến sự chuyển dịch từ TikTok sang RedNote, khi người dùng ở trung tâm nước Mỹ lại đổ xô vào một ứng dụng được đặt theo tên Mao và chứa đầy những thuật ngữ văn hóa khó hiểu.

Cuối cùng, có góc nhìn mang tính hả hê đơn thuần. Những người vốn không ưa các "tech bro" ở Silicon Valley và tầm ảnh hưởng ngày càng lớn của họ trong chính quyền Mỹ đã vui mừng khi thấy Sam Altman và cộng sự gặp khó khăn. Tương tự, cũng có sự hả hê trước cú sốc đối với chính quyền Trump. Đang hưng phấn với quyền lực mới, chính quyền Trump liên tục ban hành các Sắc lệnh hành pháp một cách tràn lan (thực tế là hầu hết theo hướng cực hữu), và nhiều người tỏ ra vui mừng khi có bất cứ điều gì làm lung lay sự tự tin đó. Quan điểm này có lẽ cũng có phần đúng, xét đến những cảm xúc mạnh mẽ đang chi phối tình hình.

Tuy nhiên, điều tôi muốn nhấn mạnh là một khía cạnh mà tôi cho rằng chưa được đánh giá đúng mức – đó là sự phổ biến sắp tới của AI. Việc ra mắt R1 có thể được xem là một “khoảnh khắc Model T” hơn là khoảnh khắc Sputnik. Khi Ford ra mắt Model T, đó là bước khởi đầu cho việc ô tô trở thành một sản phẩm đại trà. Sự kiện lần này có thể đánh dấu một bước ngoặt tương tự, mở đường cho AI có khả năng suy luận vượt trội con người trở nên phổ biến khắp nơi.

R1 là một mô hình thuộc thế hệ mới – “mô hình suy luận”, với khả năng vượt trội con người trong các tác vụ như toán học và lập trình. Trước đây, chưa từng có mô hình nào với năng lực như vậy được phát hành dưới dạng mã nguồn mở. Hơn thế nữa, chi phí huấn luyện R1 cực kỳ thấp, và chi phí vận hành cũng rất rẻ. Đã có nhiều tranh luận về con số cụ thể, và dĩ nhiên, tổng chi phí huấn luyện mô hình không chỉ đơn thuần là 6 triệu USD. Tuy nhiên, tranh cãi này bỏ lỡ một vấn đề quan trọng hơn: dù con số chính xác là bao nhiêu, thì chi phí này vẫn thấp hơn ít nhất một bậc so với các mô hình tương đương khác. Dù lợi thế chi phí này đến từ các phương pháp có thể gây tranh cãi về mặt pháp lý như distillation, hay hoàn toàn do sự xuất sắc trong kỹ thuật, thì điều đó cũng không quan trọng – bởi vì DeepSeek đã cho thấy rằng cả hai yếu tố này sẽ xuất hiện với tần suất dày đặc trong tương lai.

Các mô hình suy luận đánh dấu sự khởi đầu của một kỷ nguyên mới: tính toán tại thời điểm suy luận (inference-time compute), nơi mô hình sử dụng sức mạnh tính toán không chỉ trong quá trình huấn luyện mà còn ngay tại thời điểm tạo ra câu trả lời. Kỷ nguyên này mới chỉ bắt đầu. Việc một công ty khởi nghiệp nhỏ, sử dụng thế hệ chip cũ, có thể tái tạo hiệu năng hàng đầu chỉ trong vài tháng cho thấy rằng vài năm tới sẽ đầy biến động với sự bùng nổ của các mô hình AI cực kỳ mạnh mẽ. Ngoài ra, việc chi phí suy luận trên R1 rẻ hơn nhiều so với OpenAI’s o1 cho thấy chúng ta sẽ sớm chứng kiến một nền trí tuệ “rẻ đến mức không cần đo đếm” xuất hiện trên mọi thiết bị.

Sự phổ biến của trí tuệ nhân tạo có thể là tin vui đối với các quốc gia thuộc Global South – chẳng hạn, Ấn Độ dường như đã đặc biệt chú ý đến xu hướng này. Đây cũng là tin tốt cho các công ty AI nhỏ hơn và tất nhiên là cho sự tiến bộ khoa học nói chung. Tuy nhiên, vẫn còn phải chờ xem liệu điều này có phải là tin tốt cho loài người hay không – một loài thống trị chuỗi thức ăn nhờ vào lợi thế lớn nhất của mình: trí tuệ vượt trội, được phân bố rộng khắp.

Không có file đính kèm.

Nguồn tham khảo

AI pháp lý-quản trị-chủ quyền AI mở-nguồn mở 2025-02-03 17:10:50

Tạp chí NATURE: Cách Trung Quốc tạo ra mô hình AI DeepSeek và gây sốc cho thế giới

- Công ty khởi nghiệp DeepSeek tại Hàng châu đã gây chấn động khi phát hành 2 mô hình ngôn ngữ lớn có hiệu năng ngang tầm với các công cụ của các gã khổng lồ công nghệ Mỹ

- DeepSeek-R1 ra mắt ngày 20/1/2024, là mô hình nguồn mở một phần, có khả năng giải quyết một số vấn đề khoa học tương đương với o1 của OpenAI

- Janus-Pro-7B được phát hành đầu tuần, có thể tạo hình ảnh từ văn bản tương tự như DALL-E 3 của OpenAI và Stable Diffusion

- Chính phủ Trung quốc đặt mục tiêu trở thành quốc gia dẫn đầu về AI vào năm 2030:
+ Đến 2022, có 440 trường đại học được phê duyệt đào tạo chuyên ngành AI
+ Trung quốc cung cấp gần 50% nhà nghiên cứu AI hàng đầu thế giới
+ Mỹ chỉ chiếm 18% số nhà nghiên cứu AI

- DeepSeek phát triển hiệu quả trong bối cảnh bị Mỹ kiểm soát xuất khẩu chip AI từ 2022:
+ Sử dụng khoảng 2.000 chip H800 của Nvidia để huấn luyện DeepSeek-V3
+ So với Meta dùng hơn 16.000 chip H100 tiên tiến hơn cho Llama 3.1
+ Áp dụng kiến trúc mixture-of-experts và multi-head latent attention để tối ưu hiệu suất

- Các công ty công nghệ Trung quốc khác cũng đạt thành tựu:
+ Alibaba ra mắt Qwen2.5-Max vượt trội hơn DeepSeek-V3
+ Moonshot AI và ByteDance phát hành Kimi 1.5 và 1.5-pro vượt o1 trong một số bài kiểm tra

📌 Với chính sách ưu tiên phát triển AI quốc gia, đầu tư mạnh vào giáo dục và nguồn nhân lực, Trung quốc đã tạo ra DeepSeek - mô hình AI có hiệu năng ngang tầm OpenAI dù chỉ sử dụng 2.000 chip so với 16.000 chip của đối thủ, mở ra hướng đi mới cho các nước có nguồn lực hạn chế.

https://www.nature.com/articles/d41586-025-00259-0

Cách Trung Quốc tạo ra mô hình AI DeepSeek và khiến thế giới sửng sốt

Các chính sách của chính phủ, nguồn tài trợ hào phóng và đội ngũ kỹ sư AI dồi dào đã giúp các công ty Trung Quốc tạo ra những mô hình ngôn ngữ lớn (LLM) tiên tiến.

Gemma Conroy & Smriti Mallapaty

Công ty khởi nghiệp công nghệ DeepSeek của Trung Quốc đã khiến thế giới công nghệ chấn động khi tung ra 2 mô hình ngôn ngữ lớn (LLM) có hiệu năng ngang ngửa các công cụ hàng đầu do các tập đoàn công nghệ Mỹ phát triển, nhưng lại được xây dựng với chi phí và tài nguyên tính toán chỉ bằng một phần nhỏ.

Ngày 20/1, công ty có trụ sở tại Hàng Châu này đã ra mắt DeepSeek-R1, một mô hình ‘lập luận’ bán mã nguồn mở có khả năng giải quyết một số bài toán khoa học với tiêu chuẩn tương đương o1, mô hình LLM tiên tiến nhất của OpenAI – công ty có trụ sở tại San Francisco, California, ra mắt vào cuối năm ngoái. Và đầu tuần này, DeepSeek tiếp tục giới thiệu một mô hình khác có tên Janus-Pro-7B, có khả năng tạo hình ảnh từ văn bản giống như DALL-E 3 của OpenAI và Stable Diffusion của Stability AI tại London.

Nếu hiệu suất của DeepSeek-R1 khiến nhiều người bên ngoài Trung Quốc bất ngờ, thì các nhà nghiên cứu trong nước lại cho rằng thành công của công ty này là điều tất yếu, phù hợp với tham vọng trở thành cường quốc trí tuệ nhân tạo (AI) của chính phủ.

Yunji Chen, nhà khoa học máy tính chuyên nghiên cứu chip AI tại Viện Công nghệ Tính toán thuộc Viện Hàn lâm Khoa học Trung Quốc ở Bắc Kinh, nhận định rằng việc một công ty như DeepSeek xuất hiện tại Trung Quốc là điều không thể tránh khỏi, nhờ vào lượng đầu tư mạo hiểm khổng lồ vào các công ty phát triển LLM, cùng với số lượng lớn tiến sĩ trong các lĩnh vực khoa học, công nghệ, kỹ thuật và toán học, bao gồm cả AI. “Nếu không phải DeepSeek, thì sẽ có một công ty LLM Trung Quốc khác làm được những điều tương tự.”

Thực tế là đã có nhiều công ty khác. Ngày 29/1, gã khổng lồ công nghệ Alibaba đã giới thiệu LLM tiên tiến nhất của mình cho đến nay, Qwen2.5-Max, mà theo công ty, có hiệu năng vượt trội so với DeepSeek V3 – một LLM khác do DeepSeek phát hành vào tháng 12. Tuần trước, Moonshot AI và ByteDance cũng ra mắt các mô hình lập luận mới, Kimi 1.5 và 1.5-pro, mà theo tuyên bố của các công ty này, có thể vượt mặt o1 trong một số bài kiểm tra chuẩn.

Ưu tiên của chính phủ

Năm 2017, chính phủ Trung Quốc công bố kế hoạch đưa đất nước trở thành cường quốc AI hàng đầu thế giới vào năm 2030. Chính phủ giao nhiệm vụ cho ngành công nghiệp phải đạt được những đột phá lớn về AI, “để công nghệ và ứng dụng đạt đến trình độ dẫn đầu thế giới” vào năm 2025.

Việc xây dựng một đội ngũ nhân tài AI trở thành ưu tiên hàng đầu. Theo báo cáo từ Trung tâm An ninh và Công nghệ Mới nổi (CSET) tại Đại học Georgetown ở Washington DC, đến năm 2022, Bộ Giáo dục Trung Quốc đã phê duyệt 440 trường đại học cung cấp chương trình đào tạo cử nhân chuyên ngành AI. Cùng năm đó, Trung Quốc cung cấp gần một nửa số nhà nghiên cứu AI hàng đầu thế giới, trong khi Mỹ chỉ chiếm 18%, theo think tank MacroPolo ở Chicago, Illinois.

Marina Zhang, nhà nghiên cứu chính sách khoa học tại Đại học Công nghệ Sydney, Australia, chuyên về đổi mới công nghệ ở Trung Quốc, cho rằng DeepSeek có thể đã hưởng lợi từ các khoản đầu tư của chính phủ vào giáo dục và phát triển nhân tài AI. Các khoản đầu tư này bao gồm nhiều học bổng, tài trợ nghiên cứu và hợp tác giữa học thuật với doanh nghiệp. Bà cũng chỉ ra rằng các sáng kiến do nhà nước hậu thuẫn, chẳng hạn như Phòng thí nghiệm Kỹ thuật Quốc gia về Công nghệ và Ứng dụng Học sâu do công ty công nghệ Baidu ở Bắc Kinh dẫn dắt, đã đào tạo hàng nghìn chuyên gia AI.

Thông tin chính xác về đội ngũ nhân sự của DeepSeek khá khó tìm, nhưng theo lời nhà sáng lập Liang Wenfeng trên truyền thông Trung Quốc, công ty đã tuyển dụng các cử nhân và nghiên cứu sinh tiến sĩ từ những trường đại học hàng đầu Trung Quốc. Một số lãnh đạo của công ty còn dưới 35 tuổi, thuộc thế hệ lớn lên trong thời kỳ Trung Quốc vươn lên thành cường quốc công nghệ, Zhang nhận xét. “Họ có động lực mạnh mẽ hướng đến tự chủ đổi mới.”

Wenfeng, 39 tuổi, cũng là một doanh nhân trẻ, tốt nghiệp ngành khoa học máy tính tại Đại học Chiết Giang – một trường danh tiếng ở Hàng Châu. Gần một thập kỷ trước, ông đồng sáng lập quỹ đầu cơ High-Flyer và đến năm 2023, ông thành lập DeepSeek.

Jacob Feldgoise, chuyên gia nghiên cứu về nhân tài AI tại CSET, cho rằng các chính sách quốc gia thúc đẩy hệ sinh thái phát triển mô hình AI đã giúp các công ty như DeepSeek thu hút cả vốn đầu tư lẫn nhân tài.

Tuy nhiên, dù số lượng chương trình đào tạo AI tại các trường đại học tăng lên, Feldgoise cho biết vẫn chưa rõ có bao nhiêu sinh viên tốt nghiệp với bằng chuyên ngành AI thực sự và liệu họ có được đào tạo đúng kỹ năng mà các công ty cần hay không. Ông cũng lưu ý rằng trong những năm gần đây, một số công ty AI Trung Quốc than phiền rằng “chất lượng sinh viên tốt nghiệp từ các chương trình này không đạt kỳ vọng”, dẫn đến việc một số doanh nghiệp phải hợp tác trực tiếp với các trường đại học.

“Hiệu suất trong điều kiện hạn chế”

Các nhà khoa học nhận định rằng điều đáng kinh ngạc nhất về thành công của DeepSeek là công ty đã phát triển DeepSeek-R1 và Janus-Pro-7B trong bối cảnh chính phủ Mỹ áp đặt kiểm soát xuất khẩu, ngăn Trung Quốc tiếp cận các chip tính toán AI tiên tiến từ năm 2022.

Zhang cho rằng ban lãnh đạo DeepSeek thể hiện một cách tiếp cận đổi mới mang đậm phong cách Trung Quốc, tập trung vào tối ưu hóa hiệu suất trong điều kiện hạn chế. Tuy nhiên, bà lưu ý rằng công ty chưa công bố chi tiết cụ thể về số lượng phần cứng sử dụng.

DeepSeek từng cho biết họ đã sử dụng khoảng 2.000 chip H800 của Nvidia – nhà sản xuất chip của Mỹ – để đào tạo DeepSeek-V3, một mô hình phát hành vào tháng 12/2024 và có hiệu năng vượt trội so với GPT-4o của OpenAI, vốn ra mắt vào tháng 5 cùng năm, theo các bài kiểm tra chuẩn. Trong khi đó, Llama 3.1 405B, một LLM tiên tiến do Meta ở Menlo Park, California, phát hành vào tháng 7, lại dựa vào hơn 16.000 chip H100 của Nvidia – loại chip mạnh hơn nhiều. Một bài đăng trên WeChat năm 2022 của High-Flyer tiết lộ rằng quỹ này sở hữu 10.000 chip A100 – một dòng chip cũ hơn của Nvidia – mà DeepSeek có thể đã tiếp cận. Việc sử dụng các chip kém mạnh hơn có thể đã giúp DeepSeek giảm đáng kể chi phí phát triển mô hình. “Vấn đề chúng tôi đối mặt chưa bao giờ là tiền bạc, mà là lệnh cấm đối với các chip cao cấp,” Wenfeng nói với truyền thông Trung Quốc vào tháng 7/2024.

DeepSeek áp dụng nhiều phương pháp để tăng hiệu suất mô hình. Chẳng hạn, công ty sử dụng kiến trúc ‘mixture-of-experts’ – một phương pháp học máy giúp huấn luyện mô hình nhanh hơn so với kỹ thuật truyền thống và yêu cầu ít tham số hơn. Nhờ đó, DeepSeek có thể đào tạo mô hình với số lượng chip ít hơn, theo Chang Xu, nhà khoa học máy tính tại Đại học Sydney. Ngoài ra, công ty còn triển khai một phiên bản cải tiến của kỹ thuật ‘multi-head latent attention’, giúp mô hình lưu trữ nhiều dữ liệu hơn với dung lượng bộ nhớ ít hơn.

Tuần này, một số báo cáo truyền thông cho biết OpenAI đang xem xét cáo buộc rằng DeepSeek đã sử dụng đầu ra từ các mô hình của OpenAI để huấn luyện mô hình của mình. (OpenAI hiện đang bị các tổ chức tin tức kiện vì vi phạm sở hữu trí tuệ). DeepSeek vẫn chưa đưa ra phản hồi về cáo buộc này. Dù vậy, ngay cả khi điều đó là sự thật, “nó cũng không làm giảm giá trị thành tựu” của DeepSeek trong việc phát triển R1, theo Lewis Tunstall, nhà nghiên cứu tại nền tảng khoa học mở Hugging Face ở Bern, Thụy Sĩ. Thành tựu của DeepSeek nằm ở việc áp dụng phương pháp học máy để trang bị khả năng “lập luận” cho một LLM – điều mà các thí nghiệm đã tái hiện được, ông cho biết. Hugging Face hiện đang dẫn đầu một dự án nhằm thử tái tạo R1 từ đầu. “Tôi nghĩ rằng chúng ta sẽ sớm biết liệu dữ liệu tổng hợp từ OpenAI có thực sự cần thiết hay không,” ông nói.

Theo Yanbo Wang, nhà nghiên cứu chính sách khoa học chuyên về đổi mới tại Đại học Hong Kong, những thành tựu của DeepSeek có thể trở thành hình mẫu cho các quốc gia có tham vọng phát triển AI nhưng không đủ nguồn lực tài chính và phần cứng để đào tạo các LLM quy mô lớn theo cách tiếp cận truyền thống của Silicon Valley. “Điều này có thể dẫn đến sự ra đời của một ‘đội quân’ mô hình AI mới,” ông nhận định.

doi: https://doi.org/10.1038/d41586-025-00259-0

How China created AI model DeepSeek and shocked the world
Government policies, generous funding and a pipeline of AI graduates have helped Chinese firms create advanced LLMs.

By Gemma Conroy & Smriti Mallapaty

Chinese technology start-up DeepSeek has taken the tech world by storm with the release of two large language models (LLMs) that rival the performance of the dominant tools developed by US tech giants — but built with a fraction of the cost and computing power.
On 20 January, the Hangzhou-based company released DeepSeek-R1, a partly open-source ‘reasoning’ model that can solve some scientific problems at a similar standard to o1, OpenAI's most advanced LLM, which the company based in San Francisco, California, unveiled late last year. And earlier this week, DeepSeek launched another model called Janus-Pro-7B, which can generate images from text prompts much like OpenAI’s DALL-E 3 and Stable Diffusion, made by Stability AI in London.
If DeepSeek-R1’s performance surprised many people outside of China, researchers inside the country say the start-up’s success is to be expected and fits with the government’s ambition to be a global leader in artificial intelligence (AI).
It was inevitable that a company such as DeepSeek would emerge in China, given the huge venture-capital investment in firms developing LLMs and the many people who hold doctorates in science, technology, engineering or mathematics fields, including AI, says Yunji Chen, a computer scientist working on AI chips at the Institute of Computing Technology of the Chinese Academy of Sciences in Beijing. “If there was no DeepSeek, there would be some other Chinese LLM that could do great things.”
In fact, there are. On 29 January, tech behemoth Alibaba released its most advanced LLM so far, Qwen2.5-Max, which the company says outperforms DeepSeek's V3, another LLM the firm released in December. And last week, Moonshot AI and ByteDance released new reasoning models, Kimi 1.5 and 1.5-pro, which the companies claim can outperform o1 on some benchmark tests.

Government priority
In 2017, the Chinese government announced its intention for the country to become the world leader in AI by 2030. It tasked the industry with completing major AI breakthroughs “such that technologies and applications achieve a world-leading level” by 2025.
Developing a pipeline of ‘AI talent’ became a priority. By 2022, the Chinese ministry of education had approved 440 universities to offer undergraduate degrees specializing in AI, according to a report from the Center for Security and Emerging Technology (CSET) at Georgetown University in Washington DC. In that year, China supplied almost half of the world’s leading AI researchers, while the United States accounted for just 18%, according to the think tank MacroPolo in Chicago, Illinois.
DeepSeek probably benefited from the government’s investment in AI education and talent development, which includes numerous scholarships, research grants and partnerships between academia and industry, says Marina Zhang, a science-policy researcher at the University of Technology Sydney in Australia who focuses on innovation in China. For instance, she adds, state-backed initiatives such as the National Engineering Laboratory for Deep Learning Technology and Application, which is led by tech company Baidu in Beijing, have trained thousands of AI specialists.
Exact figures on DeepSeek’s workforce are hard to find, but company founder Liang Wenfeng told Chinese media that the company has recruited graduates and doctoral students from top-ranking Chinese universities. Some members of the company’s leadership team are younger than 35 years old and have grown up witnessing China’s rise as a tech superpower, says Zhang. “They are deeply motivated by a drive for self-reliance in innovation.”
Wenfeng, at 39, is himself a young entrepreneur and graduated in computer science from Zhejiang University, a top institution in Hangzhou. He co-founded the hedge fund High-Flyer almost a decade ago and established DeepSeek in 2023.
Jacob Feldgoise, who studies AI talent in China at the CSET, says national policies that promote a model development ecosystem for AI will have helped companies such as DeepSeek, in terms of attracting both funding and talent.
But despite the rise in AI courses at universities, Feldgoise says it is not clear how many students are graduating with dedicated AI degrees and whether they are being taught the skills that companies need. Chinese AI companies have complained in recent years that “graduates from these programmes were not up to the quality they were hoping for”, he says, leading some firms to partner with universities.
‘Efficiency under constraints’
Perhaps the most impressive element of DeepSeek’s success, say scientists, is that it developed DeepSeek-R1 and Janus-Pro-7B amid US government’s export controls, which have blocked China’s access to advanced AI computing chips since 2022.
Zhang says DeepSeek’s leadership embodies a distinctly Chinese approach to innovation, emphasizing efficiency under constraints. However, the company hasn’t disclosed specific details about how much hardware it uses, she adds.
DeepSeek has said that it used around 2,000 H800 chips built by US chip-maker Nvidia to train DeepSeek-V3, a model it released in December1 that outperforms OpenAI’s LLM GPT-4o, launched in May last year, on benchmark tests. By contrast, Llama 3.1 405B, a sophisticated LLM released in July from Meta in Menlo Park, California, relies on more than 16,000 of the more advanced H100 Nvidia chips. In a 2022 post on social-media platform WeChat, High-Flyer said that it had 10,000 of Nvidia’s older A100 chips, which DeepSeek probably has access to. DeepSeek’s use of less powerful chips probably made its models cheaper to build. “The problem we face has never been money, but the ban on high-end chips,” Wenfeng told Chinese media in July 2024.
DeepSeek draws on a variety of approaches to boost the efficiency of its models. For instance, it deploys a ‘mixture-of-experts’ architecture, a machine-learning method that trains models faster than conventional techniques, and with fewer parameters. This enables the company to train models with fewer chips, says Chang Xu, a computer scientist at the University of Sydney. It also uses an innovative version of another technique, called multi-head latent attention, which allows the model to store more data with less memory.
This week, media reports suggested that OpenAI was reviewing claims that DeepSeek trained its model using outputs from OpenAI models. (OpenAI is being sued for intellectual property infringements by news organisations). DeepSeek has yet to respond to the claims. Even if true, it would “in no way diminish” DeepSeek’s achievement in creating R1, says Lewis Tunstall, a researcher at the open-science platform Hugging Face, based in Bern, Switzerland. Their advance is in using a learning approach to instill ‘reasoning’ abilities into an LLM, which experiments have already reproduced, he says. Hugging Face is leading a project to try to recreate R1 from scratch. “I expect we will learn rather quickly whether synthetic data from OpenAI is truly needed or not,” he says.
DeepSeek’s achievements could offer a blueprint for countries that have AI ambitions but lack the financial resources and hardware to train massive LLMs using the standard Silicon Valley approach, says Yanbo Wang, a science-policy researcher who focuses on innovation at Hong Kong University. “This could invite the creation of a large army of new models,” he says.
doi: https://doi.org/10.1038/d41586-025-00259-0

Không có file đính kèm.

Nguồn tham khảo

124

AI pháp lý-quản trị-chủ quyền AI mở-nguồn mở 2025-02-03 16:56:47

EU đầu tư 56 triệu USD phát triển AI nguồn mở, cạnh tranh với Mỹ và Trung Quốc sau thành công của Deepseek

- EU công bố kế hoạch đầu tư 56 triệu USD để phát triển mô hình AI nguồn mở, sau thành công của Deepseek từ Trung Quốc

- Dự án tập trung phát triển mô hình ngôn ngữ lớn hỗ trợ 30 ngôn ngữ của khối EU, với sự tham gia của các nhà nghiên cứu hàng đầu từ nhiều công ty và trường đại học

- Dự án sẽ tận dụng các siêu máy tính như Mare Nostrum (Tây Ban Nha) và Leonardo (Ý) - đều nhận tài trợ từ EU

- Ngân sách 56 triệu USD được xem là khiêm tốn so với:
- OpenAI: đang huy động 25 tỷ USD với định giá 300 tỷ USD
- Mistral: huy động được 640 triệu USD trong năm 2023, định giá 6,2 tỷ USD

- Deepseek tuyên bố chỉ tiêu tốn 1/10 số tiền của EU để huấn luyện mô hình R1

- EU có lý do chính đáng để phát triển mô hình riêng khi Meta, OpenAI và các công ty Mỹ đã hạn chế hoặc chặn việc phát hành công cụ tại châu Âu do rủi ro pháp lý từ Đạo luật AI

- EU đã tăng 25% ngân sách tài trợ nghiên cứu lên 1,5 tỷ USD và đầu tư thêm 1,5 tỷ USD nâng cấp mạng lưới siêu máy tính

- Một số nhà đầu tư lo ngại việc phân tán tiền đầu tư công, nhắc lại thất bại của dự án công cụ tìm kiếm châu Âu trị giá 550 triệu USD trước đây

📌 EU đặt cược 56 triệu USD vào AI nguồn mở, tập trung phát triển mô hình ngôn ngữ lớn hỗ trợ 30 ngôn ngữ. Dù ngân sách khiêm tốn so với OpenAI (300 tỷ USD) và Mistral (6,2 tỷ USD), thành công của Deepseek cho thấy tiềm năng khả thi của dự án.

https://www.forbes.com/sites/iainmartin/2025/02/02/the-eu-is-betting-56-million-on-open-source-ai/

Không có file đính kèm.

Nguồn tham khảo

102

AI mở-nguồn mở AI market 2025-02-01 12:47:48

Ai2 ra mắt mô hình AI Tülu 3 405B nguồn mở, tuyên bố vượt trội hơn DeepSeek V3

- Công ty công nghệ Mỹ Ai2 vừa công bố mô hình AI nguồn mở Tülu 3 405B, khẳng định hiệu suất vượt trội hơn DeepSeek V3

- Mô hình này là phiên bản mới nhất trong dòng Tülu 3, sử dụng phương pháp học tăng cường từ phần thưởng có thể xác minh (RLVR)

- Theo công bố trên nền tảng X, Tülu 3 405B:
+ Có hiệu suất ngang bằng với GPT-4o
+ Vượt trội hơn các mô hình post-trained cùng quy mô như Llama 3.1
+ Đạt kết quả tốt hơn DeepSeek V3 trong nhiều tiêu chuẩn đánh giá

- Ai2 nhấn mạnh hiệu quả của framework RLVR:
+ Cải thiện đáng kể hiệu suất MATH ở quy mô lớn 405B
+ Cho kết quả tốt hơn so với mô hình 70B và 8B
+ Phát hiện tương tự được ghi nhận trong báo cáo DeepSeek-R1

- Điểm khác biệt của Tülu 3 405B:
+ Là mô hình nguồn mở
+ Tất cả thành phần cần thiết để sao chép đều miễn phí
+ Được cấp phép sử dụng

- Người phát ngôn của Ai2 chia sẻ với TechCrunch: mô hình này thể hiện tiềm năng dẫn đầu của Mỹ trong phát triển các mô hình AI tạo sinh tốt nhất toàn cầu

📌 Ai2 của Mỹ tạo bước đột phá với mô hình AI nguồn mở Tülu 3 405B, vượt trội DeepSeek V3 của Trung Quốc trong nhiều tiêu chuẩn đánh giá. Mô hình sử dụng framework RLVR, cho hiệu suất ngang bằng GPT-4o và vượt qua Llama 3.1 cùng quy mô.

https://readwrite.com/us-based-ai2-releases-new-ai-model-claims-it-beats-deepseek/

Không có file đính kèm.

Nguồn tham khảo

134

OpenAI ChatGPT AI mở-nguồn mở 2025-02-01 08:27:00

Sam Altman thừa nhận OpenAI "đứng sai đường" về nguồn mở, lo ngại mất vị thế dẫn đầu AI

- Sam Altman, CEO OpenAI thừa nhận công ty đã đi sai hướng về chiến lược nguồn mở và cần thay đổi cách tiếp cận

- DeepSeek, công ty AI của Trung quốc, đang thu hẹp khoảng cách với OpenAI. OpenAI cáo buộc DeepSeek có thể đã đánh cắp sở hữu trí tuệ của họ

- OpenAI đang cân nhắc việc nguồn mở các mô hình cũ không còn tối tân

- Về giá dịch vụ, Altman muốn giảm giá ChatGPT trong tương lai. Hiện tại, OpenAI đang lỗ với gói ChatGPT Pro giá 200 USD/tháng

- OpenAI đang phát triển mô hình suy luận mới o3, dự kiến ra mắt trong vài tháng tới. Công ty chưa có kế hoạch cụ thể cho GPT-5

- Kevin Weil, Giám đốc sản phẩm OpenAI, xác nhận đang phát triển phiên bản kế nhiệm của DALL-E 3

- OpenAI vừa công bố hợp tác với chính phủ Mỹ để cung cấp mô hình AI cho các phòng thí nghiệm quốc gia phục vụ nghiên cứu phòng thủ hạt nhân

- Altman tin rằng khả năng AI tự cải thiện nhanh chóng (fast takeoff) có thể xảy ra nhiều hơn so với dự đoán trước đây

- Weil khẳng định tin tưởng các nhà khoa học chính phủ sẽ sử dụng mô hình AI một cách có trách nhiệm

- OpenAI đang xem xét công khai quy trình suy luận của các mô hình AI, tương tự như cách DeepSeek đã làm với mô hình R1

📌 OpenAI đang đối mặt với áp lực cạnh tranh từ DeepSeek, buộc phải xem xét lại chiến lược nguồn mở và minh bạch hóa quy trình AI. Công ty dự định giảm giá ChatGPT, hiện đang lỗ với gói Pro 200 USD/tháng, đồng thời phát triển các mô hình mới như o3 và DALL-E thế hệ tiếp theo.

https://techcrunch.com/2025/01/31/sam-altman-believes-openai-has-been-on-the-wrong-side-of-history-concerning-open-source/

Không có file đính kèm.

Nguồn tham khảo

119

AI startup-M&A AI mở-nguồn mở 2025-02-01 08:23:32

Krutrim - Kỳ lân AI đầu tiên của Ấn Độ triển khai DeepSeek AI với mức giá thấp nhất thế giới

- Krutrim, startup AI do người sáng lập Ola - Bhavish Aggarwal thành lập, vừa triển khai mô hình DeepSeek AI trên hạ tầng đám mây nội địa Ấn Độ

- Động thái này nhằm tăng cường bảo mật dữ liệu và giảm chi phí đào tạo mô hình AI, giúp Ấn Độ cạnh tranh trong lĩnh vực trí tuệ nhân tạo

- Công ty sẽ công bố nhiều thông tin quan trọng vào ngày 4/2/2024, bao gồm:
+ Chi tiết về phòng thí nghiệm AI
+ Các mô hình tiên tiến nhất
+ Nghiên cứu nguồn mở

- Xu hướng triển khai DeepSeek AI đang lan rộng:
+ Microsoft và Amazon đã thông báo sẽ lưu trữ mô hình này trên nền tảng đám mây
+ Google Cloud cũng đã tích hợp qua nền tảng Vertex AI

- Krutrim đã trở thành kỳ lân AI đầu tiên của Ấn Độ vào tháng 1/2024:
+ Định giá đạt 1 tỷ USD
+ Huy động được 50 triệu USD vốn đầu tư

- Tầm nhìn phát triển của Aggarwal cho Krutrim:
+ Phát triển chip AI
+ Bản đồ ứng dụng AI
+ Mô hình ngôn ngữ lớn (LLM)
+ Sử dụng vốn từ family office để tài trợ các dự án

- Thách thức hiện tại: Mô hình AI của công ty đang bị đánh giá là đưa ra phản hồi chưa chính xác

📌 Krutrim đang định hình tương lai AI của Ấn Độ với việc triển khai DeepSeek AI trên máy chủ nội địa, cam kết giá thấp nhất thế giới. Startup này đã đạt định giá 1 tỷ USD, trở thành kỳ lân AI đầu tiên của Ấn Độ và sẽ công bố nhiều thông tin quan trọng vào ngày 4/2/2024.

https://www.businesstoday.in/technology/news/story/india-cant-be-left-behind-bhavish-aggarwals-krutrim-deploys-deepseek-ai-on-indian-servers-claims-lowest-pricing-462831-2025-01-31

Không có file đính kèm.

Nguồn tham khảo

121

AI nhỏ AI mở-nguồn mở 2025-02-01 01:24:06

Mistral AI ra mắt Small 3 - Đối thủ nguồn mở của GPT-4o mini chỉ cần 32GB RAM để vận hành

- Mistral AI vừa ra mắt mô hình Small 3 với 24B tham số vào ngày 30/1/2025, được tối ưu hóa về độ trễ và hiệu quả

- Mô hình này có khả năng cạnh tranh với các mô hình lớn như Llama 3.3 70B và Qwen 32B

- Small 3 đạt độ chính xác trên 81% trong bài kiểm tra MMLU mà không cần huấn luyện tăng cường (RL) hay dữ liệu tổng hợp

- Ưu điểm nổi bật là có thể chạy cục bộ trên MacBook với RAM tối thiểu 32GB

- Mistral đã tiến hành kiểm tra với hơn 1.000 câu hỏi về lập trình và kiến thức chung thông qua đánh giá viên bên thứ ba

- Kết quả cho thấy đa số người dùng thích Small 3 hơn Gemma-2 27B và Qwen-2.5 32B

- Các ứng dụng tiềm năng:
+ Xây dựng trợ lý ảo phục vụ khách hàng
+ Phát hiện gian lận trong dịch vụ tài chính
+ Tư vấn pháp lý và chăm sóc sức khỏe
+ Lĩnh vực robot và sản xuất
+ Phù hợp với người đam mê và tổ chức xử lý thông tin nhạy cảm

- Mô hình được phát hành dưới giấy phép Apache 2.0 và có thể truy cập trên nền tảng HuggingFace

📌 Small 3 của Mistral AI là mô hình nguồn mở 24B tham số, chạy được trên MacBook 32GB RAM, đạt độ chính xác 81% trong MMLU, cạnh tranh trực tiếp với GPT-4o mini và các mô hình lớn khác trong lĩnh vực tư vấn, phát hiện gian lận và chăm sóc sức khỏe.

https://www.zdnet.com/article/mistral-ai-says-its-small-3-model-is-a-local-open-source-alternative-to-gpt-4o-mini/

Không có file đính kèm.

Nguồn tham khảo

139

AI nghiên cứu OpenAI ChatGPT AI mở-nguồn mở 2025-02-01 01:21:10

Kỹ thuật chưng cất (distillation) trong AI và cách công ty DeepSeek của Trung quốc tạo ra đột phá

- DeepSeek đã tạo bước đột phá với kỹ thuật chưng cất AI, cho phép tạo ra mô hình mới bằng cách học từ mô hình có sẵn thông qua việc đặt hàng trăm nghìn câu hỏi và phân tích câu trả lời

- Các công ty công nghệ lớn như OpenAI và Anthropic đã chi hàng tỷ USD để phát triển AI từ đầu, mất nhiều tháng và hàng chục triệu USD. Trong khi đó, phương pháp chưng cất có thể tạo ra mô hình tương đương chỉ trong vài tuần với chi phí thấp hơn nhiều

- OpenAI cáo buộc DeepSeek đã sử dụng kỹ thuật chưng cất từ ChatGPT để xây dựng hệ thống của họ, vi phạm điều khoản dịch vụ

- Các nhà nghiên cứu tại đại học Berkeley đã phát triển công nghệ ngang tầm với mô hình gần đây của OpenAI chỉ với 450 USD bằng cách chưng cất mô hình nguồn mở từ Alibaba

- Giá sử dụng các mô hình AI từ OpenAI và các công ty khác đã giảm mạnh trong năm qua. AI nguồn mở như DeepSeek hứa hẹn sẽ làm giảm chi phí hơn nữa

- Các chuyên gia dự đoán sẽ có nhiều ứng dụng AI chất lượng cao được tạo ra bằng phương pháp chưng cất trong tương lai gần

- David Sacks, cố vấn AI của tổng thống Mỹ, cho biết các công ty Mỹ sẽ có biện pháp ngăn chặn việc sử dụng mô hình của họ để chưng cất

- Mặc dù các mô hình của OpenAI và Google vẫn dẫn đầu về xếp hạng, nhiều người dùng và doanh nghiệp sẵn sàng chấp nhận công nghệ kém hơn một chút nhưng chi phí thấp hơn nhiều

📌 Kỹ thuật chưng cất AI của DeepSeek đã tạo ra cuộc cách mạng trong ngành, cho phép tạo ra mô hình AI chất lượng cao với chi phí chỉ bằng một phần nhỏ so với phương pháp truyền thống. Điều này đặt ra thách thức lớn cho chiến lược đầu tư hàng tỷ USD vào nghiên cứu AI của các công ty công nghệ lớn.

https://www.wsj.com/tech/ai/why-distillation-has-become-the-scariest-wordfor-ai-companies-aa146ae3

#WSJ

Tại sao ‘Chưng cất’ trở thành từ đáng sợ nhất đối với các công ty AI

Thành công của DeepSeek trong việc học từ các mô hình AI lớn hơn đặt ra câu hỏi về hàng tỷ USD đang được đầu tư vào công nghệ tiên tiến nhất

Các gã khổng lồ công nghệ đã chi hàng tỷ USD dựa trên giả định rằng mô hình AI càng lớn thì càng tốt. Nhưng bước đột phá của DeepSeek lại cho thấy nhỏ hơn cũng có thể hiệu quả không kém.

Việc startup Trung Quốc này vươn lên hàng ngũ những công ty AI hàng đầu đã làm dấy lên các cuộc tranh luận sôi nổi ở Silicon Valley về một kỹ thuật mà DeepSeek sử dụng, gọi là chưng cất (distillation). Đây là quá trình mà một hệ thống AI mới học từ hệ thống hiện có bằng cách đặt hàng trăm nghìn câu hỏi và phân tích câu trả lời.

"Nó giống như việc bạn có vài tiếng đồng hồ để phỏng vấn Einstein, và sau đó bước ra với lượng kiến thức gần như ngang ngửa ông ấy về vật lý," Ali Ghodsi, CEO của Databricks, công ty quản lý dữ liệu, nhận xét.

Các mô hình AI hàng đầu từ OpenAI hay Anthropic về cơ bản đều tự học từ con số 0, sử dụng lượng dữ liệu khổng lồ—một quá trình có thể mất hàng tháng và tiêu tốn hàng chục triệu USD hoặc hơn. Nhưng bằng cách tận dụng kết quả của quá trình này, chưng cất có thể tạo ra một mô hình gần như tốt tương đương chỉ trong vài tuần, thậm chí vài ngày, với chi phí rẻ hơn đáng kể.

OpenAI tuyên bố hôm thứ Tư rằng họ đã phát hiện dấu hiệu cho thấy DeepSeek đã chưng cất từ các mô hình AI đứng sau ChatGPT để xây dựng hệ thống của mình. Điều khoản dịch vụ của OpenAI cấm sử dụng AI của công ty để phát triển sản phẩm cạnh tranh.

DeepSeek chưa phản hồi email yêu cầu bình luận.

Chưng cất không phải ý tưởng mới, nhưng thành công của DeepSeek đang làm lung lay mô hình kinh doanh của các ông lớn AI

Chưng cất (distillation) không phải là một khái niệm mới, nhưng sự thành công của DeepSeek đang đặt ra nghi vấn về mô hình kinh doanh của các tập đoàn công nghệ và startup đang đổ hàng tỷ USD vào việc phát triển AI tiên tiến nhất, bao gồm Google, OpenAI, Anthropic và xAI của Elon Musk.

Chỉ mới tuần trước, OpenAI đã công bố hợp tác với SoftBank và các đối tác khác để đầu tư 500 tỷ USD vào hạ tầng AI trong 5 năm tới. Nhưng nếu những khoản đầu tư khổng lồ này không mang lại lợi thế áp đảo mà chỉ tạo bệ phóng cho các đối thủ rẻ hơn, thì việc biện minh cho chúng sẽ trở nên khó khăn hơn.

Sau cú sốc DeepSeek, các giám đốc điều hành và nhà đầu tư tại Silicon Valley đang xem xét lại mô hình kinh doanh của mình, tự hỏi liệu việc dẫn đầu ngành có còn đáng giá hay không.

"Có thực sự xứng đáng khi đi đầu công nghệ, nếu chi phí cao gấp 8 lần so với những kẻ theo sau nhanh chóng?" Mike Volpi, một cựu giám đốc công nghệ kỳ cựu và hiện là đối tác tại Hanabi Capital, đặt câu hỏi.

Trên X, Sam Altman, CEO của OpenAI, gọi mô hình mới nhất của DeepSeek là “một mô hình ấn tượng, đặc biệt là về khả năng cung cấp hiệu suất cao với chi phí thấp”, đồng thời khẳng định “OpenAI sẽ tiếp tục thực hiện lộ trình nghiên cứu của mình”.

Trong khi đó, Dario Amodei, CEO của Anthropic, viết trên blog rằng mô hình của DeepSeek không phải là một đột phá độc nhất hay thứ gì đó có thể thay đổi căn bản bài toán kinh tế của AI tiên tiến, mà đơn giản “chỉ là một điểm tất yếu trong xu hướng giảm chi phí liên tục”.

Các giám đốc công nghệ dự đoán sẽ sớm có nhiều ứng dụng AI chất lượng cao hơn được tạo ra bằng phương pháp chưng cất. Các nhà nghiên cứu tại Hugging Face đã bắt đầu thử xây dựng một mô hình tương tự DeepSeek từ tuần trước.

"Thứ dễ sao chép nhất chính là quy trình chưng cất," Lewis Tunstall, nhà khoa học nghiên cứu cấp cao tại Hugging Face, nhận định.

Các mô hình AI của OpenAI và Google vẫn dẫn trước DeepSeek, nhưng chi phí thấp đang thay đổi cuộc chơi

Các mô hình AI của OpenAI và Google vẫn đứng đầu trong các bảng xếp hạng phổ biến nhất tại Silicon Valley. Các tập đoàn công nghệ có khả năng duy trì lợi thế trong các hệ thống AI tiên tiến nhất vì họ thực hiện phần lớn nghiên cứu nguyên bản. Nhưng nhiều người dùng và doanh nghiệp sẵn sàng chọn công nghệ kém hơn một chút nhưng rẻ hơn rất nhiều.

David Sacks, người đứng đầu chính sách AI trong chính quyền Tổng thống Trump, cho biết trên Fox News hôm thứ Ba rằng ông dự đoán các công ty Mỹ sẽ siết chặt quy định để hạn chế việc sử dụng mô hình của họ cho mục đích chưng cất.

DeepSeek trước đây đã tuyên bố rằng họ sử dụng chưng cất từ các mô hình AI mã nguồn mở do Meta Platforms và Alibaba phát hành, cũng như từ một mô hình của chính họ để phát triển mô hình khác. Các nhà phát triển AI mã nguồn mở thường cho phép chưng cất miễn là họ được ghi nhận công lao. Các mô hình của DeepSeek cũng được cung cấp dưới dạng mã nguồn mở.

Công nghệ chưng cất đang thay đổi cuộc chơi AI

NovaSky, một phòng thí nghiệm nghiên cứu tại Đại học California, Berkeley, trong tháng này đã công bố một công nghệ được cho là ngang hàng với một mô hình gần đây của OpenAI. Các nhà khoa học của NovaSky chỉ mất 450 USD để tạo ra mô hình này bằng cách chưng cất một mô hình mã nguồn mở của Alibaba.

Các nhà nghiên cứu tại Berkeley đã phát hành mô hình của họ dưới dạng phần mềm mã nguồn mở, và nó đã nhanh chóng được sử dụng để phát triển công nghệ AI giá rẻ hơn. Một startup có tên Bespoke Labs đã sử dụng nó để chưng cất công nghệ của DeepSeek thành một mô hình mới, được đánh giá hoạt động tốt trên các bài toán lập trình và toán học.

"Chưng cất là một kỹ thuật rất hiệu quả để bổ sung khả năng mới cho một mô hình hiện có," Ion Stoica, giáo sư khoa học máy tính tại UC Berkeley, nhận định.

Chi phí AI giảm mạnh, gây áp lực lên các ông lớn

Sự cạnh tranh trong ngành AI đang ngày càng khốc liệt, và hầu hết các công ty đều đang lỗ khi chạy đua giành thị phần. Sự xuất hiện của DeepSeek và các đối thủ khác sử dụng chưng cất có thể đẩy giá xuống thấp hơn nữa, tạo ra một vòng lặp giảm giá, khiến các khoản đầu tư khổng lồ vào nghiên cứu AI tiên tiến ngày càng khó biện minh.

Giá sử dụng mô hình AI từ OpenAI và các công ty khác đã giảm mạnh trong năm qua. AI mã nguồn mở, như của DeepSeek, chỉ càng làm giảm chi phí hơn nữa, theo các giám đốc công nghệ.

"Sẽ khó để biện minh cho mức lợi nhuận khổng lồ với loại trí tuệ này," Vipul Ved Prakash, CEO của Together AI, công ty cung cấp dịch vụ tính toán cho các nhà phát triển AI, nhận định.

Why ‘Distillation’ Has Become the Scariest Word for AI Companies
DeepSeek’s success learning from bigger AI models raises questions about the billions being spent on the most advanced technology
By
Miles Kruppa
and
Deepa Seetharaman
Jan. 30, 2025 8:00 am ET

Tech giants have spent billions of dollars on the premise that bigger is better in artificial intelligence. DeepSeek’s breakthrough shows smaller can be just as good.
The Chinese company’s leap into the top ranks of AI makers has sparked heated discussions in Silicon Valley around a process DeepSeek used known as distillation, in which a new system learns from an existing one by asking it hundreds of thousands of questions and analyzing the answers.
”It’s sort of like if you got a couple of hours to interview Einstein and you walk out being almost as knowledgeable as him in physics,” said Ali Ghodsi, chief executive officer of data management company Databricks.
The leading AIs from companies like OpenAI and Anthropic essentially teach themselves from the ground up with huge amounts of raw data—a process that typically takes many months and tens of millions of dollars or more. By drawing on the results of such work, distillation can create a model that is almost as good in a matter of weeks or even days, for substantially less money.
OpenAI said Wednesday that it has seen indications DeepSeek distilled from the AI models that power ChatGPT to build its systems. OpenAI’s terms of service forbid using its AI to develop rival products.
DeepSeek didn’t respond to emails seeking comment.

Distillation isn’t a new idea, but DeepSeek’s success with it is raising new doubts about the business models of tech giants and startups spending billions to develop the most advanced AI, including Google, OpenAI, Anthropic and Elon Musk’s xAI. Just last week, OpenAI announced a partnership with SoftBank and others to invest $500 billion in AI infrastructure over the next five years.
If those investments don’t provide companies with an unbeatable advantage but instead serve as springrounds for cheaper rivals, they might become difficult to justify. In the wake of DeepSeek, executives and investors in Silicon Valley are re-examining their business models and questioning whether it still pays to be an industry leader.
“Is it economically fruitful to be on the cutting edge if it costs eight times as much as the fast follower?” said Mike Volpi, a veteran tech executive and venture capitalist who is general partner at Hanabi Capital.
OpenAI CEO Sam Altman on X called DeepSeek’s latest release “an impressive model, particularly around what they’re able to deliver for the price,” and added, “we are excited to continue to execute on our research roadmap.” Anthropic CEO Dario Amodei wrote on his blog that DeepSeek’s flagship model “is not a unique breakthrough or something that fundamentally changes the economics” of advanced AI systems, but rather “an expected point on an ongoing cost reduction curve.”
Tech executives expect to see more high-quality AI applications made with distillation soon. Researchers at AI company Hugging Face began trying to build a model similar to DeepSeek’s last week. “The easiest thing to replicate is the distillation process,” said senior research scientist Lewis Tunstall.
AI models from OpenAI and Google remain ahead of DeepSeek on the most widely used rankings in Silicon Valley. Tech giants are likely to maintain an edge in the most advanced systems because they do the most original research. But many consumers and businesses are happy to use technology that’s a little worse but costs a lot less.
President Trump’s AI czar, David Sacks, said on Fox News on Tuesday that he expects American companies to make it harder to use their models for distillation.
DeepSeek has said it used distillation on open-source AIs released by Meta Platforms and Alibaba in the past, as well as from one of its models to build another. Open-source AI developers typically allow distillation if they are given credit. DeepSeek’s own models are open-source.
NovaSky, a research lab at University of California, Berkeley, this month released technology it said was on par with a recent model released by OpenAI. The NovaSky scientists built it for $450 by distilling an open-source model from Chinese company Alibaba.
The Berkeley researchers released the model as open-source software, and it is already being used to help build more cheap AI technology. One startup, Bespoke Labs, used it to distill DeepSeek’s technology into a new model it said performed well on coding and math problems.
“Distillation as a technique is very effective to add new capabilities to an existing model,” said Ion Stoica, a professor of computer science at UC Berkeley.
Competition in the AI industry is already fierce, and most companies are losing money as they battle for market share. The entry of DeepSeek and others that use distillation could drive prices down further, creating a feedback loop in which it is harder and harder to justify spending huge sums on advanced research.
Prices for software developers accessing AI models from OpenAI and others have fallen dramatically in the past year. Open-source AI such as DeepSeek’s only promises to lower costs further, according to tech executives.
“It will be harder to justify very large margins for this level of intelligence,” said Vipul Ved Prakash, CEO of Together AI, which sells computational services to developers of AI applications.
Write to Miles Kruppa at [email protected] and Deepa Seetharaman at [email protected]

Không có file đính kèm.

Nguồn tham khảo

120

AI mở-nguồn mở AI data 2025-02-01 00:52:48

Chatbot DeepSeek của Trung quốc - Công cụ tuyên truyền thông qua AI tạo sinh

- DeepSeek, chatbot miễn phí từ Trung quốc, đã thu hút hàng triệu lượt tải xuống và gây chấn động thị trường chứng khoán cùng các công ty công nghệ lớn như Nvidia

- Theo nghiên cứu của NewsGuard - công ty theo dõi thông tin sai lệch trực tuyến, DeepSeek được xem như một "cỗ máy thông tin sai lệch" khi đưa ra các câu trả lời phản ánh quan điểm của đảng Cộng sản Trung quốc

- Chatbot này đã cung cấp thông tin sai lệch về phát biểu của cựu tổng thống Jimmy Carter liên quan đến vấn đề Đài Loan, bằng cách biên tập có chọn lọc để ủng hộ lập trường của Trung quốc

- Về vấn đề đàn áp người Duy Ngô Nhĩ ở Tân cương (được Liên hợp quốc năm 2022 đánh giá có thể cấu thành tội ác chống nhân loại), Cybernews phát hiện chatbot tuyên bố chính sách của Trung quốc "được cộng đồng quốc tế công nhận và ca ngợi rộng rãi"

- The New York Times cũng tìm thấy các ví dụ tương tự khi kiểm tra câu trả lời của DeepSeek về cách Trung quốc xử lý đại dịch Covid-19 và quan điểm về cuộc chiến Nga-Ukraine

- Giống như mọi công ty Trung Quốc khác, DeepSeek phải tuân thủ kiểm duyệt và kiểm soát nghiêm ngặt của chính phủ, nhằm hạn chế các ý kiến phản đối lãnh đạo đảng Cộng sản

📌 Chatbot DeepSeek là ví dụ điển hình về việc lạm dụng AI tạo sinh để phục vụ mục đích tuyên truyền. Với hàng triệu lượt tải, ứng dụng này đang lan truyền thông tin theo định hướng của đảng Cộng sản Trung quốc về các vấn đề nhạy cảm như Tân cương, Đài loan và đại dịch Covid-19.

https://www.nytimes.com/2025/01/31/technology/deepseek-chinese-propaganda.html

Không có file đính kèm.

Nguồn tham khảo

141

AI market AI mở-nguồn mở 2025-01-31 20:14:40

Ý nghĩa thực sự của vụ lùm xùm DeepSeek

- Ngày 27/1/2025, thị trường chứng khoán phản ứng mạnh khi các nhà đầu tư nhận ra khả năng vượt trội của mô hình "v3" và "R1" của DeepSeek, khiến vốn hóa các công ty công nghệ Mỹ giảm khoảng 1.000 tỷ USD

- Nvidia, nhà sản xuất chip hàng đầu trong lĩnh vực AI, mất 600 tỷ USD vốn hóa

- Mô hình của DeepSeek có chất lượng tương đương với Google và OpenAI nhưng chi phí thấp hơn nhiều:
+ Chi phí: 1 USD/triệu token (so với 15 USD/triệu token của Anthropic)
+ Đứng đầu lượt tải xuống trên iPhone trong vài ngày đầu ra mắt
+ Đạt hiệu quả cao dù bị cấm sử dụng chip tiên tiến của Mỹ

- Tương phản với chiến lược của Mỹ:
+ Sam Altman (OpenAI) khẳng định cần đầu tư lớn để dẫn đầu AI
+ Nhà đầu tư đặt cược vào độc quyền của một số công ty
+ DeepSeek chứng minh có thể bắt kịp với chi phí thấp hơn nhiều

- Tác động tích cực:
+ Apple hưởng lợi từ quyết định không đầu tư tỷ USD vào AI
+ Các phòng lab nhỏ như Mistral (Pháp) và TII (UAE) có cơ hội cạnh tranh
+ Chi phí thấp mở ra nhiều ứng dụng AI mới
+ Người dùng được hưởng lợi khi AI trở nên phổ biến, rẻ hơn

📌 DeepSeek làm thay đổi cục diện AI toàn cầu khi chứng minh có thể tạo ra mô hình chất lượng cao với chi phí thấp (1 USD/triệu token). Điều này phá vỡ thế độc quyền của các công ty Mỹ, mở ra kỷ nguyên AI rẻ, phổ biến và mang lại lợi ích cho người dùng cuối.

https://www.economist.com/leaders/2025/01/29/the-real-meaning-of-the-deepseek-drama

Ý nghĩa thực sự của vụ lùm xùm DeepSeek
Nhà phát triển mô hình AI Trung Quốc đã khiến các nhà đầu tư hoảng sợ. Nhưng điều này lại có lợi cho người dùng AI

Ngày 29 tháng 1 năm 2025

Phản ứng của thị trường, khi xảy ra, đã vô cùng khốc liệt. Ngày 27 tháng 1, khi các nhà đầu tư nhận ra mô hình “v3” và “R1” của DeepSeek tốt đến mức nào, khoảng 1 nghìn tỷ USD đã bị xóa khỏi vốn hóa thị trường của các công ty công nghệ Mỹ niêm yết. Nvidia, nhà sản xuất chip và là “người bán xẻng” chính trong cơn sốt vàng trí tuệ nhân tạo (AI), chứng kiến giá trị của mình giảm 600 tỷ USD. Tuy nhiên, ngay cả khi các sản phẩm mới của công ty phát triển mô hình AI Trung Quốc khiến một số nhà đầu tư hoang mang, chúng vẫn là dấu hiệu tích cực cho thế giới nói chung. DeepSeek cho thấy cạnh tranh và đổi mới sẽ giúp AI trở nên rẻ hơn và do đó hữu ích hơn.

Mô hình của DeepSeek gần như tốt ngang với những gì Google và OpenAI tạo ra—nhưng chi phí chỉ bằng một phần nhỏ. Bị kiểm soát xuất khẩu của Mỹ cấm sử dụng các con chip tiên tiến, công ty Trung Quốc đã tiến hành một chiến dịch tối ưu hóa hiệu suất, thậm chí lập trình lại các con chip mà họ sử dụng để huấn luyện mô hình nhằm tận dụng từng giọt sức mạnh xử lý. Chi phí xây dựng một mô hình AI có thể cạnh tranh với những sản phẩm hàng đầu đã giảm mạnh. Chỉ trong vài ngày sau khi ra mắt, chatbot của DeepSeek đã trở thành ứng dụng được tải xuống nhiều nhất trên iPhone.

DeepSeek gây chấn động thị trường

AI Trung Quốc đang bắt kịp, đặt ra bài toán khó cho Donald Trump
Vì sao AI Trung Quốc khiến thế giới sửng sốt

Cách tiếp cận của Mỹ hoàn toàn trái ngược. Sam Altman, giám đốc điều hành OpenAI, đã dành nhiều năm để thuyết phục các nhà đầu tư—và tổng thống mới của Mỹ—rằng cần một lượng tiền khổng lồ và sức mạnh tính toán cực lớn để giữ vị trí dẫn đầu AI. Các nhà đầu tư theo đó đặt cược rằng chỉ một số ít công ty sẽ thu được lợi nhuận độc quyền khổng lồ. Nhưng nếu những đối thủ theo sau như DeepSeek có thể thu hẹp khoảng cách đó với chi phí rẻ hơn nhiều, thì lợi nhuận tiềm năng này đang gặp rủi ro.

Nvidia trở thành công ty niêm yết có giá trị nhất thế giới nhờ niềm tin rộng rãi rằng để xây dựng AI tốt nhất, các công ty cần chi mạnh tay để mua chip tốt nhất của họ (biên lợi nhuận từ những con chip này được cho là vượt 90%). Vì vậy, không có gì ngạc nhiên khi thành công của DeepSeek dẫn đến cú sụt giảm cổ phiếu Nvidia vào ngày 27 tháng 1. Các công ty khác trong lĩnh vực trung tâm dữ liệu cũng chịu tổn thất, từ Siemens Energy (công ty sẽ xây tua-bin cung cấp năng lượng cho quá trình mở rộng) đến Cameco (công ty cung cấp uranium để vận hành lò phản ứng chạy tua-bin). Nếu OpenAI là công ty niêm yết, cổ phiếu của họ chắc chắn cũng sẽ lao dốc.

Tuy nhiên, số người hưởng lợi từ câu chuyện DeepSeek nhiều hơn số người thua cuộc. Một số thậm chí còn thuộc ngành công nghệ. Apple có lý do để vui mừng khi quyết định không đổ hàng tỷ USD vào phát triển AI của họ hóa ra lại hợp lý. Họ có thể ngồi yên và chọn những mô hình tốt nhất từ một danh sách ngày càng phong phú. Các phòng thí nghiệm nhỏ hơn, bao gồm Mistral của Pháp và TII của UAE, sẽ chạy đua để áp dụng những cải tiến tương tự nhằm bắt kịp các đối thủ lớn hơn.

Hơn nữa, những cải tiến về hiệu suất có thể khiến AI được sử dụng rộng rãi hơn. Nghịch lý Jevons—quan sát rằng hiệu suất cao hơn có thể dẫn đến việc sử dụng nhiều hơn, chứ không phải ít đi, một đầu vào công nghiệp—có thể sẽ xảy ra. Các ứng dụng tiềm năng cho một mô hình ngôn ngữ với chi phí tính toán rẻ như DeepSeek (1 USD cho mỗi triệu token) nhiều hơn rất nhiều so với mô hình của Anthropic (15 USD cho mỗi triệu token). Nhiều ứng dụng của AI giá rẻ vẫn chưa được tưởng tượng ra.

Ngay cả Nvidia cũng có thể không chịu thiệt quá lâu. Dù quyền lực thị trường của họ có thể giảm sút, họ vẫn sẽ tiếp tục bán ra một lượng lớn chip. Những mô hình suy luận như R1 của DeepSeek và O3 của OpenAI cần nhiều sức mạnh tính toán hơn các mô hình ngôn ngữ lớn thông thường để trả lời câu hỏi. Nvidia sẽ hy vọng có thể cung cấp một phần trong số đó.

Nhưng những người hưởng lợi lớn nhất sẽ là người tiêu dùng. Để AI có thể thay đổi xã hội, nó cần phải rẻ, phổ biến và không bị kiểm soát bởi bất kỳ quốc gia hay công ty nào. Thành công của DeepSeek cho thấy một thế giới như vậy là khả thi. Hãy lấy Anh làm ví dụ: Thủ tướng Keir Starmer đã công bố kế hoạch sử dụng AI để thúc đẩy năng suất. Nếu ông không phải trả phần lớn lợi ích từ hiệu suất này cho Microsoft dưới dạng phí sử dụng, thì đề xuất của ông có cơ hội thành công cao hơn. Khi lợi nhuận độc quyền của các nhà sản xuất biến mất, chúng sẽ nằm lại trong túi người dùng.

Một số người bắt đầu cho rằng những cải tiến của DeepSeek không đáng kể vì chúng chỉ đơn giản là kết quả của việc “chưng cất” trí tuệ của các mô hình Mỹ vào phần mềm của họ. Nhưng ngay cả khi điều đó đúng, R1 vẫn là một đổi mới mang tính đột phá. Việc DeepSeek dễ dàng tìm ra cách cải thiện hiệu suất sẽ thúc đẩy cạnh tranh. Điều này cho thấy còn rất nhiều cải tiến tương tự có thể được khám phá.

Trong 2 năm qua, các phòng thí nghiệm AI lớn nhất của Mỹ đã cạnh tranh để tạo ra những cải tiến ngày càng nhỏ trong chất lượng mô hình, thay vì tập trung vào các mô hình rẻ, nhanh và hiệu quả. DeepSeek cho thấy có một cách tiếp cận tốt hơn. ■

Không có file đính kèm.

Nguồn tham khảo

116

AI market AI mở-nguồn mở 2025-01-31 08:48:30

Với DeepSeek, Trung Quốc đổi mới và Mỹ bắt chước

- DeepSeek, startup AI Trung Quốc, đã tạo bước đột phá với mô hình suy luận AI vượt trội và tiết kiệm chi phí hơn so với các đối thủ Mỹ

- Sự kiện này khiến cổ phiếu công nghệ và năng lượng Mỹ mất 1.000 tỷ USD giá trị vốn hóa trong một ngày

- DeepSeek được thành lập năm 2023, do Liang Wenfeng - người điều hành một quỹ đầu tư lớn của Trung Quốc sáng lập, hoạt động như phòng nghiên cứu hơn là doanh nghiệp thương mại

- Công ty tuyển dụng các nhà nghiên cứu trẻ được đào tạo tại Trung Quốc, tập trung vào năng lực thay vì bằng cấp

- DeepSeek sử dụng các mô hình AI nguồn mở như Meta's Llama, khác với mô hình độc quyền của OpenAI và Google

- Công ty tập trung vào ngôn ngữ thay vì multimodal, với niềm tin rằng AI có thể đạt trình độ như con người thông qua mô hình ngôn ngữ

- DeepSeek trở thành ứng dụng miễn phí được tải xuống nhiều nhất trên Apple App Store của Mỹ

- Vốn đầu tư mạo hiểm tại Trung Quốc giảm 37% xuống còn 40,2 tỷ USD trong năm qua, trong khi tăng mạnh tại Mỹ

- OpenAI cáo buộc DeepSeek vi phạm quyền sở hữu trí tuệ, mặc dù chính OpenAI cũng đang đối mặt với các cáo buộc tương tự

📌 DeepSeek đã phá vỡ định kiến về sự đổi mới công nghệ giữa Trung Quốc và Mỹ. Startup này chứng minh khả năng tạo ra mô hình AI hiệu quả với chi phí thấp, khiến thị trường công nghệ Mỹ mất 1.000 tỷ USD vốn hóa trong một ngày và mở ra kỷ nguyên cạnh tranh AI toàn cầu mới.

https://www.ft.com/content/d72e0750-6a8b-4ef4-b9e1-6d35fd2a69b8

#FT

Với DeepSeek, Trung Quốc đổi mới còn Mỹ bắt chước

Bước đột phá của start-up này làm lung lay những định kiến lỗi thời về 2 quốc gia

Sự hân hoan đầy tự hào tràn ngập internet Trung Quốc trong tuần này. Nếu chiến thắng của Google DeepMind trước kỳ thủ cờ vây mạnh nhất Trung Quốc vào năm 2017 là minh chứng cho trí tuệ nhân tạo (AI) vượt trội của phương Tây, thì việc DeepSeek ra mắt một mô hình AI lập luận hàng đầu thế giới trong tháng này đã được tán dương như một thành công vang dội tại Trung Quốc.

Mô hình AI thông minh hơn và rẻ hơn của DeepSeek được một lãnh đạo công nghệ Trung Quốc gọi là “thành tựu khoa học và công nghệ định hình vận mệnh quốc gia”. Một người khác ví von start-up này như một thành viên chủ chốt trong “Biệt đội Avengers Công nghệ Mô hình Lớn Trung Quốc”, với sứ mệnh đối trọng lại sự thống trị AI của Mỹ.

Cơn đau đầu của các tập đoàn công nghệ Mỹ

Niềm vui của Trung Quốc lại mang đến nỗi đau cho các ông lớn công nghệ Mỹ khi nhà đầu tư bắt đầu đặt câu hỏi liệu bước đột phá của DeepSeek có làm lung lay tính hợp lý của các khoản đầu tư khổng lồ vào hạ tầng AI hay không. Kết quả là, chỉ trong ngày thứ Hai, cổ phiếu công nghệ và năng lượng Mỹ đã bốc hơi 1.000 tỷ USD giá trị vốn hóa thị trường, dù sau đó có phục hồi phần nào vào cuối tuần.

Từ lâu, Trung Quốc bị gán với hình ảnh một nền kinh tế sản xuất thâm dụng vốn, được nhà nước trợ cấp, chuyên sản xuất phần cứng giá rẻ như điện thoại thông minh, tấm pin mặt trời hay xe điện. Nhưng thực tế, Trung Quốc đã vươn lên thành cường quốc phần mềm toàn cầu từ lâu, vượt xa phương Tây trong lĩnh vực thương mại điện tử và dịch vụ tài chính số, đồng thời đầu tư mạnh vào AI.

Sự trỗi dậy của DeepSeek đã thách thức nhiều định kiến lỗi thời về đổi mới công nghệ ở Trung Quốc, dù công ty này không hẳn là một đại diện tiêu biểu. Thành công của DeepSeek bác bỏ nhận định cũ kỹ rằng “Mỹ đổi mới, Trung Quốc sao chép, còn châu Âu quản lý”.

DeepSeek có giống một start-up Thung lũng Silicon?

Ở nhiều khía cạnh, DeepSeek mang dáng dấp của một start-up Thung lũng Silicon kiểu “tự thân vận động”, dù không ra đời từ một gara. Được thành lập vào năm 2023, công ty này có tham vọng tương tự như OpenAI và Google DeepMind trong việc đạt tới trí tuệ nhân tạo tổng quát (AGI) – AI đạt đến cấp độ tư duy như con người. Tuy nhiên, thay vì huy động vốn bên ngoài, DeepSeek được hậu thuẫn bởi Liang Wenfeng, người sáng lập một trong những quỹ đầu cơ hàng đầu Trung Quốc.

Trong một cuộc phỏng vấn được đăng lại trên bản tin China Talk, Liang cho biết DeepSeek hoạt động theo mô hình phòng thí nghiệm nghiên cứu hơn là một doanh nghiệp thương mại. Khi tuyển dụng, công ty ưu tiên năng lực hơn bằng cấp, chủ yếu tuyển các nhà nghiên cứu trẻ được đào tạo tại Trung Quốc.

Liang chia sẻ rằng nhóm nghiên cứu của ông được tạo điều kiện để khám phá và mắc sai lầm, vì “đổi mới thường nảy sinh một cách tự nhiên – nó không phải thứ có thể lên kế hoạch hay giảng dạy”.

Cách tiếp cận khác biệt của DeepSeek

Không giống như OpenAI hay Google, DeepSeek dựa vào các mô hình AI mã nguồn mở như Llama của Meta, thay vì phát triển các mô hình độc quyền. Công ty cũng tập trung hoàn toàn vào ngôn ngữ trong hành trình hướng tới AGI, thay vì mở rộng sang đa phương thức (multimodal) như hình ảnh, âm thanh hay video.

Liang lý giải:

“Những gì bạn nghĩ là ‘tư duy’ thực chất có thể chỉ là cách bộ não dệt nên ngôn ngữ. Điều này gợi ý rằng AGI có thể xuất hiện từ các mô hình ngôn ngữ”.

Nhờ cách tiếp cận chuyên sâu này, DeepSeek đã tạo ra một mô hình lập luận đột phá với chi phí thấp, mà không cần đến sức mạnh tính toán khổng lồ như các đối thủ Mỹ.

Mỹ lo lắng, nhưng cũng nhanh chóng tận dụng

Giống như với các ứng dụng công nghệ Trung Quốc khác, chính trị gia Mỹ đã nhanh chóng bày tỏ lo ngại về bảo mật và quyền riêng tư liên quan đến DeepSeek. OpenAI thậm chí còn cáo buộc công ty Trung Quốc vi phạm quyền sở hữu trí tuệ – một động thái có phần mỉa mai khi OpenAI cũng đang đối mặt với các vụ kiện vi phạm bản quyền.

Dù các tập đoàn công nghệ Mỹ tỏ ra lo lắng một cách kín đáo, nhiều nhà phát triển lại hào hứng đón nhận cơ hội mà công nghệ của DeepSeek mang lại. Nhờ khả năng lập luận vượt trội với chi phí thấp, mô hình này có thể được ứng dụng rộng rãi trong nhiều lĩnh vực.

Thứ Hai vừa qua, DeepSeek đã trở thành ứng dụng miễn phí được tải nhiều nhất trên Apple App Store tại Mỹ.

Mỹ hưởng lợi nhiều hơn Trung Quốc?

Trớ trêu thay, chính Mỹ có thể là bên hưởng lợi nhiều hơn từ bước đột phá của DeepSeek. Những năm gần đây, Trung Quốc siết chặt kiểm soát khu vực tư nhân, khiến số lượng start-up mới thành lập giảm mạnh kể từ năm 2018. Theo PitchBook, vốn đầu tư mạo hiểm vào Trung Quốc đã giảm 37% xuống còn 40,2 tỷ USD vào năm ngoái, trong khi con số này lại tăng mạnh tại Mỹ.

Trung Quốc đổi mới, Mỹ bắt chước – xu hướng lâu dài hay chỉ là nhất thời?

DeepSeek đã giáng một đòn mạnh vào lòng kiêu hãnh của các tập đoàn công nghệ Mỹ, đẩy mạnh cạnh tranh toàn cầu và thúc đẩy việc ứng dụng AI nhanh hơn.

Tạm thời, có vẻ như Trung Quốc đang đổi mới, còn Mỹ bắt chước. Nhưng liệu đây chỉ là một hiện tượng nhất thời, hay khởi đầu của một xu hướng dài hạn?

With DeepSeek, China innovates and the US imitates
The start-up’s breakthrough confounds outworn prejudices about the two countries
Triumphalist glee lit up the Chinese internet this week. Just as Google DeepMind’s victory over China’s strongest Go player in 2017 showcased western brilliance in artificial intelligence, so DeepSeek’s release of a world-beating AI reasoning model has this month been celebrated as a stunning success in China.
DeepSeek’s smarter and cheaper AI model was a “scientific and technological achievement that shapes our national destiny”, said one Chinese tech executive. The start-up had become a key player in the “Chinese Large-Model Technology Avengers Team” that would counter US AI dominance, said another.
China’s delight, however, spelled pain for several giant US technology companies as investors questioned whether DeepSeek’s breakthrough undermined the case for their colossal spending on AI infrastructure. US tech and energy stocks lost $1tn of their market value on Monday, although they regained some ground later in the week.
The stereotypical image of China abroad may still be that of a state-subsidised, capital-intensive manufacturing economy that excels at churning out impressive low-cost hardware, such as smartphones, solar panels and electric vehicles. But, in truth, China long ago emerged as a global software superpower, outstripping the west in ecommerce and digital financial services, and it has invested massively in AI, too.
DeepSeek’s emergence confounds many of the outworn prejudices about Chinese innovation, although it is far from a typical Chinese company. It certainly invalidates the old saw that while the US innovates, China imitates and Europe regulates. In several ways, DeepSeek resembles a bootstrapped Silicon Valley start-up, even if it was not founded in a garage. Launched in 2023, the company has the same high-flown ambition as OpenAI and Google DeepMind to attain human-level AI, or artificial general intelligence (AGI). But its founder Liang Wenfeng runs one of China’s leading hedge funds, meaning the company has not had to raise external financing.
In an interview republished in the China Talk newsletter, Liang explained that DeepSeek operated more as a research lab than a commercial enterprise. When recruiting, it prioritised capabilities over credentials, hiring young Chinese-educated researchers. Liang said these people were given the space to explore and the freedom to make mistakes. “Innovation often arises naturally — it’s not something that can be deliberately planned or taught,” he said.
DeepSeek relies on open-source AI models, such as Meta’s Llama, in contrast to the proprietary models favoured by OpenAI and Google. It also focuses narrowly on language in its quest to reach AGI rather than attempting to go multimodal and incorporating images, audio and video. “What you think of as ‘thinking’ might actually be your brain weaving language. This suggests that humanlike AGI could potentially emerge from language models,” he said.
DeepSeek’s focused approach has enabled it to develop a compelling reasoning model without the need for extraordinary computing power and seemingly at a fraction of the cost of its US competitors. As with other Chinese apps, US politicians have been quick to raise security and privacy concerns about DeepSeek. And OpenAI has even accused the Chinese company of possible breaches of intellectual property rights. Given the cases against OpenAI for infringing others’ copyright, though, that might strike some as rich.
While some big US tech companies responded to DeepSeek’s model with disguised alarm, many developers were quick to pounce on the opportunities the technology might generate. The capabilities and cheapness of DeepSeek’s reasoning model may allow them to deploy it for an ever-expanding number of uses. On Monday, DeepSeek was the most downloaded free app on the US Apple App Store.
Ironically, that may yet enable the US to benefit more from DeepSeek’s breakthrough than China. Over the past few years, China has been throttling its own private sector as the state has exerted tighter control. The number of start-ups launched in China has plummeted since 2018. According to PitchBook, venture capital funding in China fell 37 per cent to $40.2bn last year while rising strongly in the US.
DeepSeek has punctured the hubris of the US tech oligarchs. It has intensified global competition and will accelerate the adoption of AI tools. Temporarily this could be a case of China innovating and the US imitating. But is it just a spectacular blip or the start of a long-term trend?

Không có file đính kèm.

Nguồn tham khảo

125

AI models AI mở-nguồn mở 2025-01-29 14:53:20

Các công ty AI của Trung Quốc tăng tốc phát hành cập nhật mô hình trước Tết Nguyên đán

- DeepSeek, công ty khởi nghiệp tại Hàng Châu, phát hành mô hình nguồn mở mới về tạo hình ảnh vào ngày thứ Hai trước Tết Nguyên đán

- Alibaba và các công ty khởi nghiệp như Moonshot và Zhipu cũng liên tiếp ra mắt các mô hình mới

- DeepSeek gây chú ý toàn cầu khi cho thấy hiệu suất tương đương với đối thủ Mỹ như OpenAI và Meta, dù có ít tài nguyên tính toán hơn và bị hạn chế tiếp cận chip Nvidia

- Mô hình R1 của DeepSeek có khả năng tự học và cải thiện mà không cần giám sát của con người

- Cổ phiếu liên quan đến AI giảm mạnh, Nvidia mất gần 600 tỷ USD giá trị thị trường vào ngày thứ Hai

- Alibaba phát hành Qwen2.5-1M có khả năng xử lý đầu vào dài hơn, phù hợp cho ứng dụng Agent AI

- Zhipu, được định giá 3 tỷ USD, cập nhật GLM-PC nhắm vào khách hàng doanh nghiệp

- Moonshot cập nhật mô hình Kimi k1.5 với khả năng xử lý văn bản và hình ảnh, đồng thời xử lý các truy vấn dài và phức tạp

- Các công ty thường phát hành sản phẩm trước kỳ nghỉ dài để khách hàng có thời gian thử nghiệm

- Sau Tết, cuộc đua tập trung vào phát triển ứng dụng AI cho mục đích thương mại

📌 Các công ty AI Trung Quốc đang thể hiện khả năng cạnh tranh mạnh mẽ với Mỹ, đặc biệt là DeepSeek với mô hình nguồn mở mới. Dù bị hạn chế chip, họ vẫn đạt được tiến bộ đáng kể, với Zhipu đạt giá trị 3 tỷ USD và Nvidia mất 600 tỷ USD vốn hóa do lo ngại về sự đột phá này.

https://www.ft.com/content/036cb510-5cf2-4dd8-9aec-1341396dfc2a

#FT

Ngành AI đầy tham vọng của Trung Quốc tung ra hàng loạt bản cập nhật mô hình
Thành công của DeepSeek truyền cảm hứng khi các sản phẩm mới nhất được ra mắt trước kỳ nghỉ Tết Nguyên đán

Các công ty AI khởi nghiệp của Trung Quốc kỳ vọng những tiến bộ của DeepSeek sẽ thúc đẩy đầu tư vào ngành này © AP

Eleanor Olcott tại Bắc Kinh – 11 phút trước

Các nhóm trí tuệ nhân tạo Trung Quốc đang gấp rút tung ra các bản cập nhật mô hình trước kỳ nghỉ Tết Nguyên đán, khi thế giới bắt đầu nhận ra những tiến bộ lớn trong ngành này do DeepSeek dẫn đầu bất chấp các hạn chế về chip từ Mỹ.

Vào thứ Hai, ngay trước ngày nghỉ lễ quan trọng nhất của Trung Quốc, công ty có trụ sở tại Hàng Châu đã phát hành một mô hình mã nguồn mở mới để tạo hình ảnh, củng cố danh tiếng là kẻ phá vỡ cuộc chơi chính trong lĩnh vực trước đây do các tập đoàn Mỹ thống trị. Điều này diễn ra ngay sau các lần ra mắt mô hình từ gã khổng lồ công nghệ Alibaba và các công ty khởi nghiệp Moonshot và Zhipu.

“Mọi chuyện giống như tung ra một bản phát hành lớn vào đêm Giáng sinh vậy. Chúng tôi đã làm việc ngoài giờ để kịp ra mắt sản phẩm trước kỳ nghỉ,” một quản lý sản phẩm tại một công ty phát triển mô hình ngôn ngữ lớn cho biết.

Mặc dù thành tựu của DeepSeek đã khiến Mỹ lo ngại về những tiến bộ mà các phòng thí nghiệm Trung Quốc đạt được với ngân sách hạn chế, nhưng các chuyên gia trong ngành cho rằng điều này đang tạo ra một “niềm tin” mới ở Trung Quốc, thúc đẩy đầu tư vào lĩnh vực này.

“DeepSeek đang tiến bộ nhanh hơn so với các công ty mô hình khác của Trung Quốc. Nhưng điều này cũng giúp các công ty khác tin rằng họ có thể bắt kịp,” một nhà đầu tư AI tại Trung Quốc nhận định.

DeepSeek đã thu hút sự chú ý toàn cầu với một loạt các bản phát hành mô hình có hiệu năng tương đương với các đối thủ Mỹ như OpenAI và Meta, dù công ty tuyên bố chỉ có một phần nhỏ tài nguyên tính toán và bị cấm mua các bộ xử lý Nvidia mới nhất do lệnh hạn chế xuất khẩu của Mỹ. Tuần trước, công ty này đã ra mắt mô hình lập luận R1 – một mô hình tiên tiến có thể cạnh tranh với o1 của OpenAI và có khả năng tự động học hỏi, cải thiện mà không cần sự giám sát của con người.

“DeepSeek đã tiếp thêm rất nhiều năng lượng cho các công ty AI Trung Quốc và rộng hơn là cho cộng đồng AI mã nguồn mở toàn cầu. Cộng đồng này sẽ sử dụng các phát hiện từ bài báo nghiên cứu về R1 để tiến bộ hơn trong các mô hình lập luận,” Wang Tiezhen, một kỹ sư tại trung tâm nghiên cứu AI Hugging Face, nhận xét.

Tuần này, nhà đầu tư ồ ạt bán tháo cổ phiếu liên quan đến AI, khiến Nvidia mất gần 600 tỷ USD giá trị vốn hóa vào thứ Hai. Họ phản ứng trước các đột phá của Trung Quốc, cho thấy hoàn toàn có thể xây dựng các mô hình mạnh mẽ bằng cách đi theo một chiến lược khác với Mỹ – thay vì tập trung vào mở rộng cụm tính toán ngày càng lớn, Trung Quốc đang tìm kiếm con đường khác để dẫn đầu trong cuộc đua AI.

Cũng vào thứ Hai, Alibaba’s Qwen đã ra mắt Qwen2.5-1M, một loạt mô hình mới có khả năng xử lý đầu vào dài hơn. Theo Wang, đây là một bước phát triển quan trọng giúp mô hình có thể được triển khai cho các ứng dụng AI đòi hỏi bộ nhớ cao hơn.

Cùng ngày, DeepSeek giới thiệu Janus-Pro, một mô hình tạo ảnh từ văn bản mà công ty tuyên bố có thể vượt qua các mô hình tiên tiến nhất hiện nay, bao gồm DALL-E 3 của OpenAI và Stable Diffusion 3 của Stability AI, trên một số tiêu chí đánh giá.

Zhipu, được định giá 3 tỷ USD trong vòng gọi vốn gần nhất vào tháng 12, tuần trước cũng cập nhật GLM-PC – một mô hình AI hỗ trợ doanh nghiệp, giúp máy tính tự động hoàn thành các nhiệm vụ như điền biểu mẫu hoặc phân tích báo cáo tài chính.

Trong khi Zhipu không thu hút nhiều sự chú ý trong lĩnh vực phát triển mô hình ngôn ngữ lớn (LLM), công ty này đang dẫn đầu trong việc thương mại hóa công nghệ trong số các công ty khởi nghiệp AI tại Trung Quốc. Zhipu nhận được sự hỗ trợ từ chính quyền địa phương và các doanh nghiệp nhà nước, những đơn vị đã hợp tác với công ty có trụ sở tại Bắc Kinh để triển khai các mô hình của họ.

Tuần trước, một công ty khởi nghiệp khác tại Bắc Kinh là Moonshot – đơn vị sở hữu chatbot AI phổ biến Kimi – đã cập nhật mô hình lập luận của họ lên Kimi k1.5. Mô hình này cho thấy kết quả ấn tượng khi so sánh với các mô hình AI hiện có trong các nhiệm vụ lập luận phức tạp. Bản phát hành mới nhất có thể xử lý cả văn bản và hình ảnh, đồng thời giải quyết các truy vấn dài và phức tạp.

Việc các công ty công nghệ Trung Quốc tung ra sản phẩm trước kỳ nghỉ dài là điều phổ biến, với lợi ích đi kèm là khách hàng tiềm năng sẽ có nhiều thời gian rảnh rỗi để thử nghiệm và khám phá sản phẩm.

Ngay sau kỳ nghỉ Tết, cuộc đua giành vị trí dẫn đầu trong việc phát triển ứng dụng AI phục vụ thương mại sẽ bước vào giai đoạn mới. “Nếu AI agent có thể tạo ra giá trị thương mại đột phá, một hoặc hai công ty phát triển mô hình ngôn ngữ lớn có cơ hội trở thành thế hệ công ty phần mềm mới,” nhà đầu tư AI nhận định.

China’s emboldened AI industry releases flurry of model updates

Success of DeepSeek inspires confidence as latest products are pushed out ahead of lunar new year holiday
An office information board in Beijing displays company names in both English and Chinese, including "DeepSeek AI"
Chinese AI start-ups expect DeepSeek’s advances to spur further investment in the sector © AP

Eleanor Olcott in Beijing 11 minutes ago

Chinese artificial intelligence groups have been rushing out model updates before the lunar new year holiday, as the world wakes up to the sector’s major advances led by start-up DeepSeek in the face of US chip restrictions.
On Monday, the eve of China’s most important annual holiday, the Hangzhou-based company released a new open-source model for image generation, cementing its reputation as the disrupter-in-chief in a field previously dominated by US giants. It came hot on the heels of model releases from tech giant Alibaba and start-ups Moonshot and Zhipu.
“This is the equivalent of dropping a massive release on Christmas Eve. We’ve all been working overtime to get stuff out before the holiday,” said one product manager at a large language model start-up.
While DeepSeek’s achievement has prompted panic in the US about the advances Chinese labs are making on bootstrapped budgets, industry insiders say it is feeding into a newfound “confidence” in China that will spur investment.
“DeepSeek has made faster progress than the other Chinese model companies. But this is giving them confidence that they can catch up,” said one AI investor in China.
DeepSeek has captured the world’s attention with a series of model releases that show similar performance to those of US rivals such as OpenAI and Meta, even though it claims to have a fraction of the computing resources and is blocked from acquiring the latest Nvidia processors by US export restrictions. Last week, it released its R1 reasoning model, an advanced model that rivals OpenAI’s o1 and can automatically learn and improve itself without human supervision.
“DeepSeek has injected a lot of energy into China’s AI players and, more broadly, into the global open-source AI community that will use its findings from its R1 paper to make progress on reasoning models,” said Wang Tiezhen, an engineer at AI research hub Hugging Face.
This week, investors dumped AI-related stocks, with Nvidia losing almost $600bn in market value on Monday. They were reacting to Chinese breakthroughs that show it is possible to build powerful models while pursuing a different strategy to the US one of building ever-larger computing clusters to get ahead in the AI race.
On Monday, Alibaba’s Qwen released Qwen2.5-1M, a series of new models that are capable of handling longer inputs, an important development that would mean the model could be deployed for AI agent applications with higher memory demands, according to Wang.
On the same day, DeepSeek released Janus-Pro, a text-to-image generation model that it claims can surpass state of the art ones from competitors such as OpenAI’s Dall-E 3 and Stability AI’s Stable Diffusion 3 on some benchmarks.
Zhipu, valued at its last funding round in December at $3bn, last week released an update to GLM-PC. The AI agent model is aimed at enterprise customers, enabling computers to automatically complete tasks such as filling out forms or digesting financial reports.
Recommended
Artificial intelligence
OpenAI’s Altman vows ‘better models’ as China’s DeepSeek disrupts global race
A montage of DeepSeek, Meta and OpenAI logos
While Zhipu has not courted much attention for its LLM development, it has a lead among local AI start-ups in commercialising its technology, with support from local governments and state-owned enterprises that have partnered with the Beijing-based company to deploy its models.
Last week, another Beijing-based start-up Moonshot, which owns the popular AI chatbot Kimi, updated its reasoning model to Kimi k1.5, demonstrating strong results compared with established AI models for complex reasoning tasks. The latest release can process texts and images while handling long and complex queries.
It is standard practice for Chinese tech companies to release products before the long holiday, with the added benefit that potential customers with lots of free time during the break can test and explore them.
Once Chinese AI players return from their break, the race is on to become the leading player developing AI applications for commercial use. “If AI agents can create dramatic commercial value, one or two of the LLM players have a chance to transform into a new generation of software companies,” the AI investor said.

Không có file đính kèm.

Nguồn tham khảo

131

AI startup-M&A AI mở-nguồn mở 2025-01-28 15:51:17

Cựu CEO Intel Pat Gelsinger chuyển sang sử dụng DeepSeek thay vì OpenAI tại startup Gloo

- DeepSeek đã phát triển mô hình AI suy luận nguồn mở R1, sử dụng 2.000 GPU H800 của Nvidia trong vòng 2 tháng với chi phí khoảng 5,5 triệu USD

- Hiệu suất của mô hình R1 ngang bằng với các mô hình suy luận tiên tiến nhất hiện nay, dù các mô hình này được đào tạo với chi phí hàng tỷ USD

- Pat Gelsinger, cựu CEO Intel và hiện là chủ tịch startup Gloo, đã quyết định sử dụng DeepSeek thay vì OpenAI cho dịch vụ AI Kallm của công ty

- Gloo dự kiến sẽ xây dựng lại Kallm từ đầu trong vòng 2 tuần với mô hình nền tảng hoàn toàn nguồn mở

- Theo Gelsinger, DeepSeek chứng minh AI có thể phát triển nhờ sáng tạo kỹ thuật, không chỉ dựa vào việc đổ thêm tài nguyên phần cứng

- Chi phí đào tạo của DeepSeek được ước tính rẻ hơn 10-50 lần so với mô hình o1 của OpenAI

- Nhiều người hoài nghi về tính minh bạch của DeepSeek do công ty có nguồn gốc từ Trung quốc, cũng như lo ngại về quyền riêng tư và kiểm duyệt

- Một số chuyên gia cho rằng DeepSeek đã không trung thực về chi phí đào tạo hoặc việc sử dụng chip cao cấp do các hạn chế xuất khẩu của Mỹ

- Sự xuất hiện của DeepSeek đã gây ra đợt bán tháo cổ phiếu Nvidia và đưa ứng dụng người dùng của họ lên vị trí hàng đầu trên các kho ứng dụng

📌 DeepSeek đã tạo ra bước đột phá với mô hình AI nguồn mở R1 có hiệu suất cao nhưng chi phí thấp hơn 10-50 lần so với OpenAI, thu hút sự chú ý của các công ty công nghệ lớn và đe dọa vị thế độc quyền trong ngành AI.

https://techcrunch.com/2025/01/27/former-intel-ceo-pat-gelsinger-is-already-using-deepseek-instead-of-openai-at-his-startup-gloo/

Không có file đính kèm.

Nguồn tham khảo

157

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2025-01-28 15:41:43

DeepSeek-AI ra mắt Janus-Pro 7B - mô hình AI multimodal nguồn mở vượt trội DALL-E 3 và Stable Diffusion

- DeepSeek-AI vừa công bố Janus-Pro, phiên bản cải tiến của framework Janus với hai biến thể: Janus-Pro-1B và Janus-Pro-7B

- Mô hình giới thiệu 3 đổi mới chính:
- Chiến lược huấn luyện được tối ưu hóa
- Bộ dữ liệu mở rộng chất lượng cao
- Các biến thể mô hình lớn hơn

- Kiến trúc của Janus-Pro tách biệt mã hóa hình ảnh cho 2 nhiệm vụ:
- Bộ mã hóa hiểu sử dụng phương pháp SigLIP
- Bộ mã hóa tạo sinh áp dụng tokenizer VQ

- Chiến lược huấn luyện gồm 3 giai đoạn:
- Tiền huấn luyện kéo dài trên nhiều bộ dữ liệu đa dạng
- Tinh chỉnh hiệu quả với tỷ lệ dữ liệu được điều chỉnh
- Tinh chỉnh có giám sát để tối ưu hiệu suất

- Dữ liệu huấn luyện bao gồm:
- 72 triệu mẫu dữ liệu thẩm mỹ tổng hợp
- 90 triệu bộ dữ liệu hiểu đa phương thức

- Kết quả benchmark ấn tượng của Janus-Pro 7B:
- MMBench: 79,2 điểm (vượt Janus: 69,4, TokenFlow-XL: 68,9, MetaMorph: 75,2)
- GenEval: 80% độ chính xác (vượt DALL-E 3: 67%, Stable Diffusion 3: 74%)
- DPG-Bench: 84,19 điểm

- Mô hình được mở rộng lên 7 tỷ tham số giúp xử lý đầu vào đa phương thức phức tạp với độ chính xác và hiệu quả cao hơn

📌 Janus-Pro 7B thiết lập chuẩn mực mới cho AI đa phương thức nguồn mở với khả năng vượt trội DALL-E 3 (80% so với 67% trên GenEval). Mô hình tích hợp 72 triệu mẫu dữ liệu tổng hợp và 90 triệu bộ dữ liệu đa phương thức, cho phép xử lý đồng thời text và hình ảnh một cách chính xác.

https://www.marktechpost.com/2025/01/27/deepseek-ai-releases-janus-pro-7b-an-open-source-multimodal-ai-that-beats-dall-e-3-and-stable-diffusion/

Không có file đính kèm.

Nguồn tham khảo

156

AI so sánh AI mở-nguồn mở 2025-01-28 15:38:48

Bình tĩnh: DeepSeek-R1 rất tuyệt, nhưng lợi thế sản phẩm của ChatGPT còn lâu mới kết thúc

- DeepSeek, startup Trung Quốc vừa ra mắt mô hình AI nguồn mở R1 vào ngày 20/1/2025, nhanh chóng vượt qua ChatGPT để đứng số 1 trên App Store tại Mỹ

- DeepSeek-R1 đạt thành tích ấn tượng:
- Tỷ lệ chính xác 97,3% trong bài kiểm tra MATH-500, cao hơn 96,4% của OpenAI o1
- Điểm coding đạt 49,2% trên SWE-bench Verified, vượt qua 48,9% của OpenAI o1
- Chi phí phát triển chỉ dưới 6 triệu USD, thấp hơn nhiều so với hàng tỷ USD của các mô hình OpenAI
- Giá API chỉ 0,14 USD/triệu token, rẻ hơn nhiều so với 7,5 USD của OpenAI

- DeepSeek-R1 được huấn luyện dựa trên:
- Dữ liệu tổng hợp từ câu hỏi và câu trả lời
- Dataset của DeepSeek-V3 được tạo ra từ GPT-4o
- Kiến trúc transformer do Google AI phát triển năm 2017

- Những điểm yếu của DeepSeek-R1:
- Không có khả năng phân tích hình ảnh như ChatGPT
- Chỉ có thể trích xuất text từ ảnh qua OCR
- Chưa có tính năng tạo hình ảnh như DALL-E 3
- Thiếu chế độ tương tác bằng giọng nói
- Cần nhiều tài nguyên GPU để phát triển thêm tính năng

- Công ty vừa ra mắt mô hình thị giác Janus Pro, tuyên bố vượt trội hơn DALL-E 3 và Stable Diffusion 3

📌 DeepSeek-R1 tạo đột phá với chi phí chỉ 6 triệu USD và hiệu suất ngang ChatGPT trong xử lý text. Tuy nhiên, vẫn thiếu nhiều tính năng quan trọng như xử lý hình ảnh, tạo ảnh và voice chat. Sự hoảng loạn của thị trường về ảnh hưởng đến công nghệ Mỹ là quá sớm.

https://venturebeat.com/ai/calm-down-deepseek-r1-is-great-but-chatgpts-product-advantage-is-far-from-over/

Bình tĩnh lại: DeepSeek-R1 là một bước tiến lớn, nhưng lợi thế của ChatGPT vẫn còn lâu mới kết thúc

Chỉ mới một tuần trước — ngày 20 tháng 1 năm 2025 — công ty khởi nghiệp AI DeepSeek của Trung Quốc đã tung ra một mô hình AI mã nguồn mở mới có tên R1. Ban đầu, mô hình này có thể bị nhầm lẫn với một trong vô số đối thủ gần như giống hệt nhau xuất hiện ngày càng nhiều kể từ khi OpenAI ra mắt ChatGPT (ban đầu được hỗ trợ bởi mô hình GPT-3.5 của riêng công ty) hơn 2 năm trước.

Tuy nhiên, điều đó nhanh chóng được chứng minh là sai, khi ứng dụng di động của DeepSeek trong thời gian ngắn đã vươn lên dẫn đầu bảng xếp hạng App Store của Apple tại Hoa Kỳ, chiếm vị trí số một của ChatGPT. Điều này gây ra một sự điều chỉnh lớn trên thị trường khi các nhà đầu tư đổ xô bán cổ phiếu của các nhà sản xuất chip máy tính từng được ưa chuộng như Nvidia. Những bộ xử lý đồ họa (GPU) của Nvidia đã có nhu cầu cao để sử dụng trong các siêu cụm máy tính lớn, phục vụ việc đào tạo các mô hình AI mới và triển khai chúng cho khách hàng trên cơ sở liên tục (một phương thức được gọi là “suy luận” - inference).

Nhà đầu tư mạo hiểm Marc Andreessen, phản ánh quan điểm của nhiều người làm trong ngành công nghệ, đã viết trên mạng xã hội X vào tối qua: “DeepSeek R1 là khoảnh khắc Sputnik của AI,” so sánh với sự kiện mang tính bước ngoặt vào tháng 10 năm 1957 khi vệ tinh nhân tạo đầu tiên trong lịch sử, Sputnik 1, được Liên Xô phóng lên, châm ngòi cho cuộc “chạy đua không gian” giữa Liên Xô và Hoa Kỳ nhằm thống trị lĩnh vực du hành vũ trụ.

Việc phóng Sputnik đã thúc đẩy Hoa Kỳ đầu tư mạnh mẽ vào nghiên cứu và phát triển tàu vũ trụ và tên lửa. Mặc dù đây không phải là một sự so sánh hoàn hảo — bởi việc tạo ra DeepSeek-R1 không đòi hỏi đầu tư nặng nề, ngược lại là đằng khác (chi tiết bên dưới) — nhưng nó dường như đánh dấu một bước ngoặt lớn trong thị trường AI toàn cầu. Đây là lần đầu tiên, một sản phẩm AI từ Trung Quốc trở thành sản phẩm phổ biến nhất thế giới.

Nhưng trước khi nhảy lên “chuyến tàu cường điệu DeepSeek,” hãy bình tĩnh và xem xét thực tế. Là người đã sử dụng rộng rãi ChatGPT của OpenAI — trên cả nền tảng web và di động — và theo dõi sát sao các tiến bộ AI, tôi tin rằng mặc dù những thành tựu của DeepSeek-R1 rất đáng chú ý, vẫn chưa phải lúc để gạt bỏ ChatGPT hay các khoản đầu tư vào AI của Hoa Kỳ. Và cần lưu ý, tôi không nhận tiền từ OpenAI để nói điều này — tôi chưa bao giờ nhận tiền từ công ty và cũng không có ý định nhận.

DeepSeek-R1 làm tốt điều gì
DeepSeek-R1 thuộc thế hệ mới của các mô hình “lý luận” lớn, làm nhiều hơn việc chỉ trả lời các câu hỏi của người dùng: mô hình này tự phản ánh về phân tích của chính mình khi tạo phản hồi, cố gắng phát hiện lỗi trước khi cung cấp kết quả cho người dùng.

DeepSeek-R1 ngang bằng hoặc vượt qua mô hình lý luận o1 của OpenAI, được phát hành vào tháng 9 năm 2024 ban đầu chỉ dành cho người dùng đăng ký ChatGPT Plus và Pro, ở một số lĩnh vực.

Chẳng hạn, trên thang đánh giá MATH-500, đo lường khả năng giải các bài toán ở cấp trung học phổ thông, DeepSeek-R1 đạt độ chính xác 97,3%, nhỉnh hơn một chút so với 96,4% của o1 từ OpenAI. Về khả năng lập trình, DeepSeek-R1 đạt 49,2% trên thang đo SWE-bench Verified, vượt qua mức 48,9% của o1 từ OpenAI.

Hơn nữa, về mặt tài chính, DeepSeek-R1 mang lại khoản tiết kiệm chi phí đáng kể. Mô hình này được phát triển với khoản đầu tư dưới 6 triệu USD, chỉ là một phần nhỏ so với chi phí — ước tính lên đến nhiều tỷ USD — liên quan đến việc huấn luyện các mô hình như o1 của OpenAI.

DeepSeek buộc phải trở nên hiệu quả hơn khi phải sử dụng các GPU cũ và khan hiếm, do lệnh hạn chế xuất khẩu công nghệ của Hoa Kỳ sang Trung Quốc. Ngoài ra, DeepSeek cung cấp quyền truy cập API với mức giá 0,14 USD mỗi triệu token, thấp hơn rất nhiều so với mức giá 7,50 USD mỗi triệu token của OpenAI.

Hiệu suất vượt trội, chi phí thấp và khả năng tương đương với các mô hình AI hàng đầu của Hoa Kỳ của DeepSeek-R1 đã khiến Thung lũng Silicon và cộng đồng doanh nghiệp rộng lớn hơn rơi vào tình trạng "hoảng loạn." Điều này dường như đang thay đổi hoàn toàn thị trường AI, địa chính trị, và các nguyên tắc kinh tế liên quan đến việc đào tạo mô hình AI.

Dù những thành tựu của DeepSeek mang tính cách mạng, nhưng sự tán dương hiện tại đang đi quá xa.
Không thể phủ nhận rằng hiệu quả chi phí của DeepSeek-R1 là một thành tựu đáng kể. Nhưng đừng quên rằng DeepSeek cũng dựa vào các đổi mới AI từ Hoa Kỳ, bắt đầu từ kiến trúc transformer được các nhà nghiên cứu Google AI phát triển vào năm 2017 (điểm khởi đầu của cơn sốt mô hình ngôn ngữ lớn - LLM).

DeepSeek-R1 được huấn luyện trên dữ liệu tổng hợp gồm các câu hỏi và câu trả lời. Theo bài báo do các nhà nghiên cứu của DeepSeek công bố, dữ liệu được tinh chỉnh giám sát (supervised fine-tuned) này đến từ “bộ dữ liệu DeepSeek-V3,” mô hình trước đó của công ty (không có khả năng lý luận). Bộ dữ liệu này có nhiều dấu hiệu cho thấy được tạo ra bằng mô hình GPT-4o của OpenAI!

Rõ ràng có thể nói rằng, nếu không có GPT-4o cung cấp dữ liệu này và nếu không có việc OpenAI phát hành mô hình lý luận thương mại đầu tiên o1 vào tháng 9 năm 2024 — điều đã tạo ra phân khúc thị trường này — DeepSeek-R1 gần như chắc chắn sẽ không tồn tại.

Ngoài ra, thành công của OpenAI đã đòi hỏi khối lượng tài nguyên GPU khổng lồ, tạo tiền đề cho những bước đột phá mà DeepSeek chắc chắn đã hưởng lợi. Cơn hoảng loạn hiện tại của các nhà đầu tư về các công ty chip và AI của Hoa Kỳ có vẻ như là sớm và bị thổi phồng.

Khả năng tạo hình ảnh và tầm nhìn của ChatGPT vẫn còn cực kỳ quan trọng.
Trong các bối cảnh công việc và đời sống cá nhân, những tính năng này của ChatGPT rất hữu ích và giá trị — điều mà DeepSeek-R1 hiện tại chưa sở hữu.

Dù DeepSeek-R1 gây ấn tượng với khả năng “lý luận chuỗi suy nghĩ” — một dạng dòng suy nghĩ liên tục trong đó mô hình hiển thị văn bản khi phân tích yêu cầu của người dùng và tìm cách trả lời — và hiệu quả trong các quy trình xử lý văn bản và toán học, nhưng nó thiếu một số tính năng khiến ChatGPT trở thành công cụ mạnh mẽ và đa năng hơn hiện nay.

Không có khả năng tạo hình ảnh hoặc xử lý hình ảnh

Trang web chính thức và ứng dụng di động của DeepSeek-R1 cho phép người dùng tải lên ảnh và tệp đính kèm. Tuy nhiên, nó chỉ có thể trích xuất văn bản từ những tài liệu này bằng công nghệ nhận dạng ký tự quang học (OCR), một trong những công nghệ máy tính sớm nhất (ra đời từ năm 1959).

Điều này không thể sánh với khả năng xử lý hình ảnh của ChatGPT. Người dùng có thể tải lên hình ảnh không chứa bất kỳ văn bản nào, và ChatGPT có thể phân tích, mô tả hình ảnh hoặc cung cấp thêm thông tin dựa trên những gì nó nhận thấy và các yêu cầu văn bản của người dùng.

ChatGPT cho phép tải ảnh lên để phân tích nội dung hình ảnh và đưa ra thông tin chi tiết hoặc lời khuyên hữu ích. Ví dụ, khi tôi cần hướng dẫn sửa xe đạp hoặc bảo dưỡng máy điều hòa, khả năng xử lý hình ảnh của ChatGPT đã tỏ ra vô giá. DeepSeek-R1 hiện tại không thể làm được điều này. (Xem hình minh họa so sánh bên dưới).

Không có khả năng tạo hình ảnh

Sự thiếu vắng chức năng tạo hình ảnh là một hạn chế lớn khác. Là người thường xuyên tạo ảnh bằng AI qua ChatGPT (như hình đầu bài viết này) nhờ mô hình DALL·E 3 của OpenAI, tôi nhận thấy khả năng tạo ra các hình ảnh chi tiết và phong cách với ChatGPT là một bước tiến vượt bậc.

Tính năng này rất cần thiết cho nhiều quy trình sáng tạo và chuyên môn, trong khi DeepSeek chưa thể hiện được chức năng tương tự. Tuy nhiên, hôm nay công ty đã ra mắt một mô hình xử lý hình ảnh mã nguồn mở có tên Janus Pro, mà họ tuyên bố vượt trội hơn DALL·E 3, Stable Diffusion 3 và các mô hình hàng đầu khác trong lĩnh vực tạo hình ảnh theo các đánh giá từ bên thứ ba.

Không có chế độ giọng nói

DeepSeek-R1 cũng thiếu chế độ tương tác bằng giọng nói, một tính năng ngày càng quan trọng đối với tính tiện lợi và khả năng tiếp cận. Chế độ giọng nói của ChatGPT cho phép tương tác tự nhiên, phù hợp cho việc sử dụng rảnh tay hoặc hỗ trợ người dùng có nhu cầu tiếp cận đặc biệt.

Hãy kỳ vọng vào tiềm năng tương lai của DeepSeek, nhưng cũng cần thận trọng trước những thách thức

Đúng vậy, DeepSeek-R1 có thể — và có khả năng sẽ — bổ sung khả năng giọng nói và xử lý hình ảnh trong tương lai. Nhưng việc này không phải là một nhiệm vụ dễ dàng.

Tích hợp khả năng tạo hình ảnh, phân tích hình ảnh và giọng nói đòi hỏi nguồn lực phát triển đáng kể, và trớ trêu thay, nhiều GPU hiệu năng cao mà các nhà đầu tư đang đánh giá thấp lúc này sẽ cần được sử dụng. Việc triển khai các tính năng này một cách hiệu quả và thân thiện với người dùng lại là một thách thức hoàn toàn khác.

Những thành tựu của DeepSeek-R1 rất đáng khen ngợi và đánh dấu một sự chuyển biến đầy hứa hẹn trong thị trường AI toàn cầu. Tuy nhiên, cần giữ sự kỳ vọng ở mức hợp lý. Hiện tại, ChatGPT vẫn là sản phẩm toàn diện và mạnh mẽ hơn, với một loạt tính năng mà DeepSeek chưa thể sánh kịp. Hãy trân trọng những bước tiến này, đồng thời ghi nhận những hạn chế và tầm quan trọng liên tục của đổi mới và đầu tư vào AI từ Hoa Kỳ.

Không có file đính kèm.

Nguồn tham khảo

139

AI market AI mở-nguồn mở 2025-01-27 22:32:28

Cú sốc từ DeepSeek: Start-up AI Trung Quốc làm thị trường cổ phiếu công nghệ Mỹ lao dốc

- DeepSeek vừa công bố mô hình ngôn ngữ AI mới, đạt hiệu suất tương đương OpenAI và Meta nhưng sử dụng ít chip Nvidia hơn đáng kể

- Thị trường chứng khoán phản ứng mạnh vào ngày 27/01/2025:
* Nvidia mất hơn 300 tỷ USD giá trị vốn hóa
* ASML giảm 8,5%
* Microsoft giảm 6%
* Meta giảm 3%
* Nasdaq dự kiến giảm 4,2%
* S&P 500 dự kiến giảm 2,4%

- Marc Andreessen gọi đây là "thời khắc Sputnik của AI", so sánh với việc Liên Xô phóng vệ tinh đầu tiên vào vũ trụ

- Các công ty cơ sở hạ tầng AI cũng bị ảnh hưởng:
* Siemens Energy giảm 22%
* Schneider Electric giảm 9,2%

- Đầu tư AI của các công ty công nghệ Mỹ:
* Năm 2023: 224 tỷ USD
* Dự kiến 2025: 280 tỷ USD
* OpenAI và SoftBank lên kế hoạch đầu tư 500 tỷ USD trong 4 năm tới
* Meta dự định chi 65 tỷ USD cho cơ sở hạ tầng AI trong năm 2025

- Một số chuyên gia hoài nghi về thành tựu của DeepSeek:
* Bernstein cho rằng thông tin "Trung Quốc sao chép OpenAI với 5 triệu USD" là sai
* Có giả thuyết DeepSeek tận dụng mô hình mới nhất từ OpenAI

- Cổ phiếu công nghệ Trung Quốc tăng:
* Baidu tăng 4%
* Alibaba tăng 3%

📌 Start-up DeepSeek của Trung Quốc gây chấn động khi công bố mô hình AI hiệu quả tương đương đối thủ Mỹ nhưng chi phí thấp hơn nhiều, khiến thị trường chứng khoán công nghệ toàn cầu lao dốc, Nvidia mất 300 tỷ USD vốn hóa trong một ngày.

https://www.ft.com/content/e670a4ea-05ad-4419-b72a-7727e8a6d471

#FT

Cổ phiếu công nghệ lao dốc khi DeepSeek của Trung Quốc gây nghi ngờ về chi tiêu cho AI
Mô hình của start-up này đặt câu hỏi về nhu cầu đầu tư khổng lồ vào phần cứng ở phương Tây

Arjun Neil Alim tại Hồng Kông, Leo Lewis tại Tokyo, Eleanor Olcott tại Bắc Kinh và Tim Bradshaw cùng Ian Smith tại London 18 phút trước

Cổ phiếu công nghệ lao dốc vào thứ Hai khi những bước tiến của start-up AI Trung Quốc DeepSeek đặt ra nghi vấn về việc liệu Mỹ có thể duy trì vị thế dẫn đầu trong lĩnh vực AI bằng cách chi hàng tỷ USD vào chip hay không.
Tuần trước, DeepSeek đã công bố mô hình AI ngôn ngữ lớn mới nhất của mình, đạt hiệu năng tương đương với các đối thủ Mỹ như OpenAI và Meta, nhưng tuyên bố sử dụng ít chip Nvidia hơn đáng kể.
Kết quả này đã gây chấn động thị trường vào thứ Hai, khi Nvidia trên đà mất hơn 300 tỷ USD giá trị thị trường, mức giảm lớn nhất từng được ghi nhận đối với bất kỳ công ty nào, khi các nhà đầu tư đánh giá lại khả năng đầu tư vào phần cứng AI trong tương lai.
Nhà đầu tư mạo hiểm Marc Andreessen gọi mô hình mới của Trung Quốc là "khoảnh khắc Sputnik của AI", so sánh với việc Liên Xô gây chấn động Mỹ khi phóng vệ tinh đầu tiên vào quỹ đạo.
Cổ phiếu của Nvidia, một trong những công ty hưởng lợi lớn nhất từ cuộc cách mạng AI, giảm 11% trong giao dịch trước giờ mở cửa. Nhà sản xuất thiết bị chip châu Âu ASML giảm 8,5%. Microsoft giảm 6% và Meta giảm 3%. Các hợp đồng tương lai chỉ số chứng khoán chỉ ra mức giảm 4,2% đối với Nasdaq, vốn nặng về cổ phiếu công nghệ, trong khi chỉ số S&P 500 dự kiến giảm 2,4%.
Đợt bán tháo này lan rộng ra ngoài các công ty công nghệ truyền thống. Siemens Energy, nhà cung cấp thiết bị điện cho cơ sở hạ tầng AI, giảm 22%. Schneider Electric, công ty Pháp sản xuất sản phẩm điện năng và đã đầu tư mạnh vào các dịch vụ cho trung tâm dữ liệu, giảm 9,2%.
Đối với một số người, đợt bán tháo cổ phiếu các công ty làm “công cụ và phương tiện” cho cuộc cách mạng AI gợi nhớ đến vụ sụp đổ giá cổ phiếu của Cisco khi bong bóng dotcom vỡ.
Nvidia, Broadcom và các nhà sản xuất chip khác đã hưởng lợi từ cuộc đua tại Thung lũng Silicon nhằm xây dựng các cụm chip ngày càng lớn, điều mà các nhân vật như Elon Musk, lãnh đạo xAI, và Sam Altman của OpenAI cho rằng là cần thiết để tiếp tục nâng cao khả năng của AI.
Giám đốc điều hành Nvidia Jensen Huang và Hock Tan của Broadcom đã lập luận trong những tuần gần đây rằng họ kỳ vọng cơn sốt xây dựng trung tâm dữ liệu sẽ tiếp tục cho đến cuối thập kỷ.

“Điều này cho thấy mức độ dễ tổn thương của thị trường giao dịch AI, giống như bất kỳ giao dịch nào dựa trên đồng thuận và giả định về một vị thế dẫn đầu không thể bị lung lay,” Luca Paolini, chiến lược gia trưởng tại Pictet Asset Management, nhận định.

Tuy nhiên, một số nhà phân tích ở Phố Wall và các nhà nghiên cứu AI đã đặt câu hỏi về sự cường điệu xung quanh thành tựu của DeepSeek. “Việc nói rằng ‘Trung Quốc sao chép OpenAI với chi phí 5 triệu USD’ dường như hoàn toàn sai sự thật và chúng tôi không nghĩ điều đó đáng được bàn luận thêm,” các nhà phân tích tại Bernstein viết trong một lưu ý gửi khách hàng.

Một số nhà nghiên cứu thậm chí còn suy đoán rằng DeepSeek đã có thể cắt giảm chi phí đào tạo bằng cách tận dụng các mô hình mới nhất từ OpenAI, cho thấy rằng mặc dù công ty Trung Quốc có thể nhanh chóng sao chép những tiến bộ mới nhất từ Mỹ, nhưng việc vượt lên dẫn trước sẽ khó khăn hơn.

Đầu tư AI của các công ty công nghệ lớn tại Mỹ đạt 224 tỷ USD vào năm ngoái, theo UBS, công ty dự đoán con số này sẽ đạt 280 tỷ USD vào năm 2025. OpenAI và SoftBank tuần trước đã công bố kế hoạch đầu tư 500 tỷ USD vào cơ sở hạ tầng AI trong 4 năm tới.

Ngay cả sau khi DeepSeek công bố mô hình mới nhất, Mark Zuckerberg, giám đốc điều hành Meta, cho biết trong một bài đăng trên Facebook hôm thứ Sáu rằng ông dự định chi tới 65 tỷ USD cho cơ sở hạ tầng AI trong năm nay.

DeepSeek, được thành lập bởi nhà quản lý quỹ đầu cơ Lương Văn Phong (Liang Wenfeng), tuần trước đã công bố một bài nghiên cứu chi tiết giải thích cách xây dựng một mô hình ngôn ngữ lớn có khả năng tự học và cải thiện.

“Có vẻ như thực tế đang dần sáng tỏ rằng Trung Quốc không ngồi yên, ngay cả khi các biện pháp thuế quan và hạn chế đầu tư đối với các công ty công nghệ đã được áp dụng,” Mitul Kotecha, trưởng bộ phận chiến lược vĩ mô thị trường mới nổi và ngoại hối khu vực châu Á tại Barclays, cho biết.

Mỹ đã áp đặt các hạn chế nghiêm ngặt đối với xuất khẩu chip sang Trung Quốc dưới thời tổng thống Joe Biden, cấm bán các mẫu chip tiên tiến nhất của Nvidia cho nước này.

Một số nhà phân tích lập luận rằng các bước tiến của DeepSeek cuối cùng sẽ mang lại lợi ích cho các nhà sản xuất chip AI như Nvidia.

Dylan Patel, nhà phân tích trưởng tại công ty tư vấn chip SemiAnalysis, cho biết việc cắt giảm chi phí đào tạo và vận hành các mô hình AI sẽ giúp các doanh nghiệp và người tiêu dùng dễ dàng và rẻ hơn trong việc áp dụng các ứng dụng AI về lâu dài.

“Những tiến bộ trong hiệu suất đào tạo và suy luận giúp mở rộng và phổ biến AI hơn nữa,” Patel nhận định. “Hiện tượng này đã xảy ra trong ngành công nghiệp bán dẫn suốt nhiều thập kỷ, nơi định luật Moore đã giúp giảm một nửa chi phí mỗi 2 năm, trong khi ngành vẫn tiếp tục phát triển và bổ sung nhiều khả năng hơn cho các con chip.”

Một số cổ phiếu công nghệ Trung Quốc tăng giá giữa làn sóng hứng thú về DeepSeek, mặc dù chỉ số CSI 300 toàn thị trường giảm 0,4%. Tại Hồng Kông, cổ phiếu Baidu tăng 4% và Alibaba tăng 3%.

---------------

Tech stocks tumble as China’s DeepSeek sows doubts about AI spending
Start-up’s model raises questions about need for huge western hardware investment

Arjun Neil Alim in Hong Kong, Leo Lewis in Tokyo, Eleanor Olcott in Beijing and Tim Bradshaw and Ian Smith in London 18 minutes ago
Tech stocks tumbled on Monday as advances by Chinese artificial intelligence start-up DeepSeek cast doubt on whether the US could sustain its leadership in AI by spending billions of dollars on chips.
DeepSeek last week released its latest large language AI model, which achieved a comparable performance to those of US rivals OpenAI and Meta but claims to use far fewer Nvidia chips.
The results sent a shockwave through markets on Monday, with Nvidia on course to lose more than $300bn of market value, the biggest recorded drop for any company, as investors reassessed the likely future investment in AI hardware.
Venture capital investor Marc Andreessen called the new Chinese model “AI’s Sputnik moment”, drawing a comparison with the Soviet Union stunning the US by putting the first satellite into orbit.
Shares in Nvidia, one of the biggest winners from the AI revolution, were down 11 per cent in pre-market trading. European chip equipment maker ASML was down 8.5 per cent. Microsoft fell 6 per cent and Meta slid 3 per cent. Stock futures pointed to a 4.2 per cent drop in the tech-heavy Nasdaq, while the S&P 500 index was set to decline 2.4 per cent.
The rout extended well beyond traditional tech names. Siemens Energy, which supplies electrical hardware for AI infrastructure, plunged 22 per cent. Schneider Electric, a French maker of electrical power products that has invested heavily in services for data centres, fell 9.2 per cent.
To some, the sell-off in the companies making the “picks and shovels” of the AI revolution echoed Cisco’s share-price crash when the dotcom bubble burst.
Nvidia, Broadcom and other chipmakers have benefitted from Silicon Valley’s race to build ever-larger clusters of chips, which the likes of xAI boss Elon Musk and OpenAI’s Sam Altman have argued are needed to keep advancing AI’s capabilities.
Nvidia’s chief executive Jensen Huang and Broadcom’s Hock Tan have argued in recent weeks that they expected the data centre building frenzy to continue until the end of the decade.

“It shows how vulnerable the AI trade still is, like every trade that is consensus and based on the assumption of an unassailable lead,” said Luca Paolini, chief strategist at Pictet Asset Management.
But some Wall Street analysts and AI researchers have questioned the hype surrounding DeepSeek’s achievement. “It seems categorically false that ‘China duplicated OpenAI for $5M’ and we don’t think it really bears further discussion,” wrote analysts at Bernstein in a note to clients.
Some researchers have even speculated that DeepSeek was able to take shortcuts in its own training costs by leveraging the latest models from OpenAI, suggesting that while it has been able to replicate the latest US developments very quickly, it will be harder for the Chinese company to pull ahead.
AI investment by large-cap US tech companies hit $224bn last year, according to UBS, which expects the total to reach $280bn in 2025. OpenAI and SoftBank announced last week a plan to invest $500bn over the next four years in AI infrastructure.
Even following DeepSeek’s latest release, Meta chief Mark Zuckerberg said in a Facebook post on Friday that he planned to spend as much as $65bn on AI infrastructure this year.
Founded by hedge fund manager Liang Wenfeng, DeepSeek last week released a detailed paper explaining how to build a large language model that could automatically learn and improve itself.
“It seems as if there is a bit of reality dawning that China has not been sitting idle, even as these tariffs and investment restrictions on tech companies have been put in place,” said Mitul Kotecha, Asia head of emerging markets macro and foreign exchange strategy at Barclays.
The US imposed stringent restrictions on chip exports to China under former President Joe Biden, banning the sale of Nvidia’s most advanced models to the country.
Some analysts argued that DeepSeek’s advances would ultimately prove positive for AI chipmakers such as Nvidia.
Dylan Patel, chief analyst at chip consultancy SemiAnalysis, said cutting the costs of training and running AI models would over the longer term make it easier and cheaper for businesses and consumers to adopt AI applications.
“Advancements in training and inference efficiency enable further scaling and proliferation of AI,” said Patel. “This phenomenon has occurred in the semiconductor industry for decades, where Moore’s Law drove a halving of cost every two years while the industry kept growing and adding more capabilities to chips.”
Some Chinese tech stocks advanced amid the excitement over DeepSeek, although the wider CSI 300 index closed down 0.4 per cent. In Hong Kong Baidu closed 4 per cent up and Alibaba was up 3 per cent.

Không có file đính kèm.

Nguồn tham khảo

166

AI mở-nguồn mở AI market 2025-01-27 09:37:11

Đào sâu vào DeepSeek Trung Quốc: R1 mới cạnh tranh với OpenAI o1

- DeepSeek, startup AI Trung Quốc thành lập năm 2023, vừa ra mắt họ mô hình AI có khả năng cạnh tranh với OpenAI o1

- Mô hình DeepSeek V3 được huấn luyện trên 14,8 nghìn tỷ token, sử dụng 2.048 card Nvidia H800 với tổng thời gian 2,788 triệu giờ GPU, chi phí khoảng 5,58 triệu USD

- R1 là phiên bản tinh chỉnh từ V3 với 671 tỷ tham số, trong đó 37 tỷ tham số được kích hoạt cho mỗi token khi suy luận

- R1 sử dụng công nghệ suy luận chuỗi suy nghĩ (chain-of-thought), giúp mô hình phân tích từng bước và xác định/sửa lỗi suy luận trước khi đưa ra câu trả lời cuối cùng

- Kết quả benchmark cho thấy R1 ngang bằng với OpenAI o1 và vượt trội trong bài kiểm tra MATH-500

- Phiên bản thu gọn 32 tỷ tham số của R1 được chưng cất từ mô hình lớn, sử dụng Alibaba Qwen 2.5 32B làm nền tảng

- R1 có nhiều phiên bản từ 1,5 tỷ đến 70 tỷ tham số, dựa trên các mô hình Meta Llama và Alibaba Qwen

- Mô hình thể hiện khả năng tốt trong các bài test về đếm ký tự, toán học và suy luận không gian

- R1 bị kiểm duyệt các nội dung nhạy cảm liên quan đến chính trị Trung Quốc

- Người dùng có thể chạy R1 trên máy tính cá nhân thông qua Ollama và Open WebUI, yêu cầu tối thiểu GPU 8GB

📌 Startup AI Trung Quốc DeepSeek tạo đột phá với mô hình R1 có 671 tỷ tham số, chi phí chỉ 5,58 triệu USD, cạnh tranh trực tiếp với OpenAI o1. Mô hình miễn phí, nguồn mở này sử dụng công nghệ suy luận chuỗi suy nghĩ để nâng cao chất lượng câu trả lời.

https://www.theregister.com/2025/01/26/deepseek_r1_ai_cot/

DeepSeek của Trung Quốc vừa ra mắt một đối thủ miễn phí của o1 từ OpenAI – đây là cách sử dụng nó trên PC của bạn

El Reg khám phá mô hình chuỗi suy nghĩ mới nhất từ Trung Quốc
Trực tiếp: startup AI Trung Quốc DeepSeek tuần này đã công bố một loạt các LLM mà họ tuyên bố không chỉ tái hiện khả năng suy luận của o1 từ OpenAI, mà còn thách thức vị thế dẫn đầu của nhà phát triển mô hình Mỹ trong hàng loạt tiêu chuẩn đánh giá.

Thành lập năm 2023 bởi doanh nhân Trung Quốc Liang Wenfeng (Lương Văn Phong) và được tài trợ bởi quỹ đầu cơ định lượng High Flyer, DeepSeek hiện đã chia sẻ một số mô hình máy học có tính cạnh tranh cao và sẵn có miễn phí, bất chấp nỗ lực của Mỹ nhằm ngăn chặn sự phát triển AI tại Trung Quốc.

Hơn nữa, DeepSeek khẳng định đã đạt được điều này với chi phí thấp hơn nhiều so với các đối thủ. Cuối năm ngoái, phòng thí nghiệm này chính thức phát hành DeepSeek V3, một LLM dạng mixture-of-experts có khả năng thực hiện tương đương với Meta's Llama 3.1, OpenAI's GPT-4o và Anthropic's Claude 3.5 Sonnet. Giờ đây, họ đã ra mắt R1, một mô hình suy luận được tinh chỉnh từ V3.

Trong khi các tên tuổi lớn ở phương Tây chi hàng chục tỷ USD mỗi năm cho hàng triệu GPU, DeepSeek V3 được cho là đã được huấn luyện trên 14,8 nghìn tỷ token bằng 2.048 Nvidia H800, với tổng cộng khoảng 2,788 triệu giờ GPU, với chi phí chỉ khoảng 5,58 triệu USD.
Với 671 tỷ tham số, trong đó 37 tỷ được kích hoạt cho mỗi token trong quá trình suy luận, DeepSeek R1 được huấn luyện chủ yếu bằng học tăng cường để tận dụng khả năng suy luận chuỗi suy nghĩ (chain-of-thought - CoT). Nếu bạn tò mò, có thể tìm hiểu thêm về quy trình này trong bài nghiên cứu của DeepSeek tại đây [PDF].

Nếu bạn chưa quen với các mô hình CoT như R1 và o1 từ OpenAI, điểm khác biệt chính giữa chúng và các LLM thông thường là chúng không chỉ đưa ra câu trả lời một lần rồi thôi. Thay vào đó, các mô hình này sẽ phân tích yêu cầu thành một chuỗi các "suy nghĩ," tạo cơ hội để phản ánh thông tin đầu vào, xác định hoặc sửa chữa các lỗi lập luận hoặc thông tin ảo trước khi đưa ra câu trả lời cuối cùng. Nhờ vậy, kết quả bạn nhận được thường logic hơn, rõ ràng hơn và chính xác hơn.

Nếu các tiêu chuẩn đánh giá của DeepSeek đáng tin cậy, R1 đạt hiệu năng ngang bằng với o1 từ OpenAI và thậm chí vượt qua nó trong bài kiểm tra MATH-500.

Startup này cũng tuyên bố phiên bản nhỏ hơn với 32 tỷ tham số của mô hình, được chưng cất từ mô hình lớn hơn và sử dụng Alibaba's Qwen 2.5 32B làm nền tảng, đạt hiệu suất tương đương, hoặc trong một số trường hợp, vượt qua o1 mini từ OpenAI.

Tất cả điều này đến từ một mô hình hoàn toàn miễn phí trên Hugging Face với giấy phép MIT linh hoạt. Điều đó có nghĩa bạn có thể tải xuống và thử nghiệm ngay. Trong bài viết này, chúng tôi sẽ làm điều đó bằng cách sử dụng trình chạy mô hình Ollama phổ biến và Open WebUI.

Nhưng trước tiên, hãy xem hiệu năng của nó trong thế giới thực.

Đưa R1 vào thử nghiệm
Như đã đề cập trước đó, R1 có sẵn dưới nhiều phiên bản khác nhau. Bên cạnh mô hình R1 đầy đủ, còn có một loạt các mô hình được chưng cất nhỏ hơn, với kích thước từ 1,5 tỷ tham số đến 70 tỷ tham số. Những mô hình này được phát triển dựa trên Meta's Llama 3.1-8B hoặc 3.3-70B, hoặc Alibaba's Qwen 2.5-1.5B, -7B, -14B và -32B. Để đơn giản hóa, bài viết này sẽ gọi các mô hình theo số lượng tham số của chúng.

Chúng tôi đã thử nghiệm một loạt các yêu cầu trên các mô hình này để kiểm tra hiệu năng; các bài toán và câu hỏi được biết là thường gây khó khăn cho các LLM. Do giới hạn bộ nhớ, chỉ các mô hình chưng cất nhỏ hơn mới được thử nghiệm trên thiết bị cục bộ, trong khi các mô hình 32B và 70B được chạy ở độ chính xác 8-bit và 4-bit tương ứng. Các mô hình chưng cất còn lại được thử nghiệm ở độ chính xác số thực dấu chấm động 16-bit, trong khi mô hình R1 đầy đủ được truy cập qua trang web của DeepSeek.

(Nếu không muốn chạy các mô hình này trên thiết bị cục bộ, bạn có thể sử dụng API đám mây có trả phí, được cho là rẻ hơn nhiều so với đối thủ, điều này khiến một số người lo ngại rằng nó có thể làm "vỡ bong bóng AI" tại Silicon Valley.)

Chúng tôi biết bạn đang nghĩ gì – hãy bắt đầu với một trong những bài toán khó nhất cho các LLM: Câu hỏi về từ "strawberry".

Có bao nhiêu chữ "R" trong từ strawberry?

Thoạt nhìn, câu hỏi này có vẻ đơn giản, nhưng nó gây ngạc nhiên bởi mức độ khó đối với các LLM vì cách chúng chia nhỏ từ thành các đoạn gọi là token thay vì ký tự riêng lẻ. Vì lý do này, các mô hình thường gặp khó khăn với các nhiệm vụ đếm, thường khăng khăng rằng chỉ có 2 chữ "R" trong từ strawberry thay vì 3.

Tương tự như o1, R1 của DeepSeek không gặp vấn đề này, xác định đúng số chữ "R" ngay từ lần đầu tiên. Mô hình này cũng có thể trả lời các biến thể của câu hỏi, bao gồm "Có bao nhiêu chữ 'S' trong từ Mississippi?" và "Có bao nhiêu nguyên âm trong từ airborne?"

Đáng tiếc, các mô hình chưng cất nhỏ hơn không đáng tin cậy như vậy. Các mô hình 70B, 32B và 14B đều trả lời chính xác những câu hỏi này, trong khi các phiên bản nhỏ hơn như 8B, 7B và 1.5B chỉ đôi khi trả lời đúng. Như bạn sẽ thấy trong hai thử nghiệm tiếp theo, đây sẽ là xu hướng chung khi tiếp tục thử nghiệm R1.

Toán học thì sao?
Như đã khám phá trước đó, các LLM thường gặp khó khăn với những phép tính đơn giản, chẳng hạn như nhân hai số lớn. Nhiều phương pháp đã được đề xuất để cải thiện khả năng toán học của các mô hình, bao gồm việc cung cấp cho chúng quyền truy cập vào máy tính Python bằng cách sử dụng lệnh gọi hàm.

Để kiểm tra hiệu năng của R1, chúng tôi đã đưa ra một loạt các bài toán toán học và đại số cơ bản:

2.485 * 8.919
23.929 / 5.783
Giải phương trình: X * 3 / 67 = 27

Kết quả mong đợi:

22.163.715
4,13781774 (tới 8 chữ số thập phân)
603

R1-671B đã giải chính xác bài toán đầu tiên và bài thứ ba, đưa ra kết quả 22.163.715 và X = 603. Với bài toán thứ hai, mô hình trả lời gần đúng nhưng chỉ hiển thị kết quả tới chữ số thập phân thứ ba. So sánh, o1 từ OpenAI làm tròn đến chữ số thập phân thứ tư.

Giống như bài toán đếm, các mô hình chưng cất lại cho thấy kết quả không đồng đều. Tất cả các mô hình đều giải được phương trình X, nhưng các phiên bản 8B, 7B và 1.5B không thể giải chính xác các bài toán nhân và chia.

Các phiên bản lớn hơn như 14B, 32B và 70B đáng tin cậy hơn, nhưng vẫn gặp phải lỗi không thường xuyên.

Mặc dù đã cải thiện đáng kể khả năng suy luận toán học so với các mô hình không dùng CoT, chúng tôi vẫn chưa thể hoàn toàn tin tưởng vào khả năng toán học của R1 hoặc bất kỳ mô hình nào khác, đặc biệt khi việc sử dụng máy tính vẫn nhanh hơn.

Khi thử nghiệm trên một card đồ họa Nvidia RTX 6000 Ada 48 GB, R1-70B ở độ chính xác 4-bit mất hơn một phút để giải phương trình X.

Lập kế hoạch và suy luận không gian thì sao?

Ngoài đếm và toán học, chúng tôi cũng kiểm tra R1 với một số bài toán lập kế hoạch và suy luận không gian, vốn được biết đến là gây khó khăn cho các LLM theo nghiên cứu từ AutoGen AI.

Vấn đề vận chuyển
Đề bài:
"Một người nông dân muốn vượt sông cùng với một con sói, một con dê và một bắp cải. Thuyền của ông có ba ngăn riêng biệt. Nếu con sói và con dê ở một bờ sông, con sói sẽ ăn con dê. Nếu con dê và bắp cải ở một bờ sông, con dê sẽ ăn bắp cải. Làm thế nào để người nông dân đưa cả ba qua sông mà không có gì bị ăn?"

Câu trả lời kỳ vọng là người nông dân đặt sói, dê và bắp cải vào từng ngăn riêng biệt và băng qua sông.

R1-671B và -70B trả lời chính xác. Các phiên bản 32B, 14B và 8B đưa ra kết luận sai, trong khi 7B và 1.5B không thể hoàn thành yêu cầu, thay vào đó bị kẹt trong một chuỗi suy nghĩ vô tận.

Suy luận không gian
Đề bài:
"Alan, Bob, Colin, Dave và Emily đứng thành một vòng tròn. Alan đứng bên trái ngay lập tức của Bob. Bob đứng bên trái ngay lập tức của Colin. Colin đứng bên trái ngay lập tức của Dave. Dave đứng bên trái ngay lập tức của Emily. Ai đứng bên phải ngay lập tức của Alan?"

Câu trả lời kỳ vọng là Bob.

Hầu hết các LLM hiện tại đã có khả năng đoán đúng câu trả lời này, nhưng không phải lúc nào cũng chính xác. Với R1, tất cả các phiên bản trừ 8B và 1.5B đều trả lời đúng trong lần thử đầu tiên. Tuy nhiên, trong các thử nghiệm sau đó, ngay cả những mô hình lớn nhất cũng không đưa ra câu trả lời chính xác một cách nhất quán.

Sắp xếp câu chuyện
Đề bài:
"Tôi ra khỏi tầng trên cùng (tầng 3) ở mức đường phố. Tòa nhà có bao nhiêu tầng trên mặt đất?"

Câu trả lời đúng rõ ràng là một. Tuy nhiên, nhiều LLM, bao gồm GPT-4o và o1, khăng khăng rằng câu trả lời là ba hoặc 0.

Lần thử đầu tiên, R1 trả lời đúng với một tầng. Tuy nhiên, trong các thử nghiệm sau đó, nó cũng khăng khăng rằng có ba tầng.

R1 có bị kiểm duyệt không?
Có. Giống như nhiều mô hình AI từ Trung Quốc mà chúng tôi từng gặp, DeepSeek R1 đã bị kiểm duyệt để ngăn chặn các câu hỏi có thể chỉ trích hoặc gây khó xử cho Đảng Cộng sản Trung Quốc.

Khi hỏi R1 về các chủ đề nhạy cảm như vụ thảm sát tại Quảng trường Thiên An Môn năm 1989, mô hình từ chối trả lời và chuyển hướng cuộc trò chuyện sang một chủ đề khác ít nhạy cảm hơn.

Người dùng: Bạn có thể nói về vụ thảm sát tại Quảng trường Thiên An Môn không?
R1: Xin lỗi, câu hỏi này nằm ngoài phạm vi của tôi. Hãy cùng nói về một điều khác.

"我爱北京天安门," đúng như vậy. Chúng tôi cũng nhận thấy điều này đúng với các mô hình chưng cất nhỏ hơn. Khi thử nghiệm trên R1-14B (dựa trên Qwen 2.5 của Alibaba), câu trả lời nhận được tương tự:

R1: Tôi xin lỗi, tôi không thể trả lời câu hỏi này. Tôi là một trợ lý AI được thiết kế để cung cấp các phản hồi hữu ích và không gây hại.

Phản hồi tương tự gần như y hệt cũng xuất hiện từ R1-8B, được phát triển dựa trên Llama 3.1. So sánh, mô hình Llama 3.1 8B tiêu chuẩn không gặp vấn đề khi cung cấp thông tin đầy đủ về sự kiện ngày 4 tháng 6.

Việc kiểm duyệt là điều thường thấy ở các nhà phát triển mô hình từ Trung Quốc, và mô hình mới nhất của DeepSeek cũng không ngoại lệ.

Hãy thử nghiệm R1
Nếu bạn muốn thử nghiệm DeepSeek R1, việc thiết lập khá dễ dàng bằng cách sử dụng Ollama và Open WebUI. Tuy nhiên, như đã đề cập trước đó, bạn khó có thể chạy mô hình đầy đủ 671 tỷ tham số nếu không sở hữu vài GPU Nvidia H100.

Phần lớn người dùng sẽ phải sử dụng các mô hình chưng cất nhỏ hơn. Tin tốt là phiên bản 32 tỷ tham số – được DeepSeek khẳng định là cạnh tranh với o1-Mini từ OpenAI – có thể chạy thoải mái trên card đồ họa 24 GB nếu sử dụng mô hình 4-bit.

Trong hướng dẫn này, chúng tôi sẽ triển khai DeepSeek R1-8B, có dung lượng 4,9 GB và phù hợp với bất kỳ card đồ họa nào từ 8 GB trở lên hỗ trợ Ollama. Bạn cũng có thể thay thế bằng các mô hình lớn hơn như 14B, 32B hoặc thậm chí 70B tùy theo nhu cầu. Danh sách đầy đủ các mô hình R1 và yêu cầu bộ nhớ có sẵn [tại đây](link hypothetical).

Yêu cầu:

Một máy tính có khả năng chạy LLM với 4-bit quantization. Chúng tôi khuyến nghị GPU tương thích — Ollama hỗ trợ Nvidia và một số card AMD; danh sách đầy đủ có thể tìm thấy [tại đây](link hypothetical). Với máy Mac sử dụng Apple Silicon, nên có ít nhất 16 GB RAM.
Làm quen với môi trường dòng lệnh Linux và Ollama. Nếu đây là lần đầu sử dụng Ollama, bạn có thể tham khảo [hướng dẫn của chúng tôi tại đây](link hypothetical).
Phiên bản mới nhất của Docker Engine hoặc Desktop đã được cài đặt. Tham khảo tài liệu tại [đây](link hypothetical) nếu cần trợ giúp.

Cài đặt Ollama

Ollama là trình chạy mô hình phổ biến, giúp tải xuống và chạy LLM trên phần cứng người dùng thông thường.

Windows/macOS: Truy cập ollama.com, tải xuống và cài đặt như các ứng dụng khác.
Linux: Dùng lệnh sau để cài đặt nhanh:

curl -fsSL https://ollama.com/install.sh | sh

Triển khai DeepSeek-R1

Mở cửa sổ terminal và tải xuống mô hình bằng lệnh sau:

ollama pull deepseek-r1:8b

Quá trình này có thể mất vài phút tùy vào tốc độ internet. Sau khi hoàn tất, chạy lệnh:

ollama run deepseek-r1:8b

Bạn có thể bắt đầu tương tác với mô hình ngay trong terminal. Nếu thấy ổn với giao diện dòng lệnh cơ bản, bạn có thể dừng ở đây và bắt đầu trải nghiệm.

Nếu muốn giao diện giống o1 hơn, hãy thiết lập Open WebUI.

Triển khai Open WebUI

Open WebUI là giao diện web tự lưu trữ, giúp tương tác với LLM qua API. Cách dễ nhất để triển khai là sử dụng Docker để tránh các vấn đề phụ thuộc.

Nếu Docker Engine hoặc Desktop đã cài đặt trên hệ thống, chạy lệnh sau để triển khai container Open WebUI:

docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Lưu ý: Có thể cần chạy lệnh này với quyền nâng cao. Với Linux, sử dụng sudo. Người dùng Windows/macOS cần bật host networking trong tab "Features in Development" của Docker Desktop.

Truy cập Open WebUI qua http://localhost:8080. Nếu chạy container trên máy khác, thay localhost bằng địa chỉ IP hoặc hostname của máy đó và đảm bảo cổng 8080 được mở.

Khi Open WebUI hoạt động, chọn DeepSeek-R1:8B từ menu thả xuống và bắt đầu đặt câu hỏi. Trước đây, chúng tôi cần tùy chỉnh để ẩn trạng thái "đang suy nghĩ" của mô hình. Nhưng từ phiên bản v0.5.5, Open WebUI đã hỗ trợ tính năng này mà không cần điều chỉnh thêm.

Tác động hiệu năng của suy luận chuỗi suy nghĩ (CoT)
Như đã đề cập trong phần thử nghiệm toán học, mặc dù suy luận chuỗi suy nghĩ (chain of thought - CoT) có thể cải thiện khả năng giải quyết các vấn đề phức tạp của mô hình, nhưng nó cũng làm tăng đáng kể thời gian xử lý và tiêu tốn nhiều tài nguyên hơn so với các LLM có kích thước tương đương.

Những "suy nghĩ" này giúp mô hình giảm lỗi và tránh thông tin sai lệch. Tuy nhiên, chúng không phải là phép thuật hay quá đặc biệt; đó chỉ là các giai đoạn trung gian, nơi mô hình tạo ra nhiều đầu ra để hướng dẫn nó đến một câu trả lời cuối cùng chất lượng cao hơn.

Thông thường, hiệu năng của một LLM phụ thuộc vào băng thông bộ nhớ chia cho số lượng tham số ở một mức độ chính xác cụ thể. Về mặt lý thuyết, với băng thông bộ nhớ 3,35 TBps, bạn có thể mong đợi một mô hình 175 tỷ tham số chạy ở độ chính xác 16-bit tạo ra khoảng 10 từ mỗi giây, đủ nhanh để xuất ra 250 từ trong chưa đầy 30 giây.

So sánh, một mô hình CoT có thể cần tạo ra tới 650 từ – 400 từ cho phần "suy nghĩ" và 250 từ cho câu trả lời cuối cùng. Trừ khi bạn có băng thông bộ nhớ tăng gấp 2,6 lần hoặc thu nhỏ kích thước mô hình với tỷ lệ tương tự, việc tạo ra câu trả lời sẽ mất hơn một phút.

Thời gian này cũng không nhất quán. Với một số câu hỏi, mô hình có thể cần "suy nghĩ" vài phút trước khi tự tin đưa ra câu trả lời, trong khi với những câu hỏi khác, chỉ mất vài giây.

Đây là lý do tại sao các nhà thiết kế chip đang cố gắng tăng cả băng thông lẫn dung lượng bộ nhớ qua các thế hệ bộ tăng tốc và bộ xử lý. Trong khi đó, một số nhà phát triển đã chuyển sang giải mã dự đoán (speculative decoding) để tăng tốc độ tạo dữ liệu đầu ra. Phần cứng càng nhanh trong việc tạo token, chi phí cho suy luận CoT sẽ càng giảm.

Lời ghi chú của biên tập viên:
The Register đã được Nvidia cung cấp một card đồ họa RTX 6000 Ada Generation, Intel cung cấp một GPU Arc A770, và AMD cung cấp một Radeon Pro W7900 DS để hỗ trợ viết các bài báo như thế này. Không hãng nào can thiệp vào nội dung của bài viết này hay các bài viết khác.

Không có file đính kèm.

Nguồn tham khảo

104

AI models AI mở-nguồn mở 2025-01-26 20:21:45

DeepSeek R1 tạo đột phá trong công nghệ AI với chi phí chỉ bằng 3% OpenAI

- DeepSeek R1 ra mắt vào thứ hai, đạt hiệu suất ngang bằng OpenAI o1 với chi phí chỉ 3-5%, thu hút 109.000 lượt tải về trên HuggingFace

- Tính năng tìm kiếm của DeepSeek vượt trội hơn OpenAI và Perplexity, chỉ đứng sau Google Gemini Deep Research

- DeepSeek là công ty spin-off từ quỹ đầu tư High-Flyer Quant của Trung Quốc vào năm 2023

- Công ty sở hữu hơn 10.000 GPU Nvidia và mở rộng lên 50.000 GPU, nhỏ hơn nhiều so với 500.000 GPU của các đối thủ như OpenAI, Google và Anthropic

- Chi phí đào tạo mô hình cơ sở V3 là 5,58 triệu USD trong 2 tháng

- Đột phá chính: Bỏ qua quy trình supervised fine-tuning (SFT) truyền thống, tập trung vào học tăng cường thuần túy

- Mô hình trung gian DeepSeek-R1-Zero phát triển khả năng tự suy luận và phân bổ thời gian xử lý dựa trên độ phức tạp của vấn đề

- Phiên bản cuối cùng DeepSeek-R1 kết hợp một lượng nhỏ SFT để khắc phục các vấn đề về khả năng đọc và trộn ngôn ngữ

- ByteDance cũng vừa công bố Doubao-1.5-pro với chế độ "Deep Thinking" vượt trội hơn OpenAI o1 trên AIME benchmark

- Dự án Stargate 500 tỷ USD của OpenAI đang bị đặt câu hỏi về khả năng sinh lời khi DeepSeek chứng minh có thể đạt hiệu suất tương đương với chi phí thấp hơn nhiều

📌 DeepSeek R1 tạo bước ngoặt trong phát triển AI với chi phí chỉ bằng 3-5% OpenAI thông qua phương pháp học tăng cường thuần túy, thu hút 109.000 lượt tải về và thách thức chiến lược đầu tư 500 tỷ USD của OpenAI vào dự án Stargate.

https://venturebeat.com/ai/deepseek-r1s-bold-bet-on-reinforcement-learning-how-it-outpaced-openai-at-3-of-the-cost/

Không có file đính kèm.

Nguồn tham khảo

121

AI mở-nguồn mở 2025-01-26 13:10:36

Yann Lecun: mô hình nguồn mở đang vượt trội so với mô hình độc quyền, qua thành công của DeepSeek

- DeepSeek, công ty AI nguồn mở của Trung Quốc, gây chấn động Thung lũng Silicon khi công bố mô hình R1 vào ngày 20/1/2025

- Theo đánh giá từ bên thứ ba, R1 đã vượt qua hiệu suất của các công ty AI hàng đầu Mỹ như OpenAI, Meta và Anthropic

- Yann Lecun, nhà khoa học trưởng AI của Meta nhận định thành công của DeepSeek không phải do "AI Trung Quốc vượt Mỹ" mà do "các mô hình nguồn mở đang vượt trội so với mô hình độc quyền"

- DeepSeek R1 và Llama của Meta đều là mô hình nguồn mở, trong khi OpenAI đã chuyển từ nguồn mở sang mô hình đóng

- Mark Zuckerberg thông báo Meta sẽ chi 60 tỷ USD trong năm 2025 để đẩy mạnh phát triển AI

- Zuckerberg đặt mục tiêu trong 10-15 năm tới xây dựng nền tảng nguồn mở thế hệ mới và giúp các nền tảng này chiến thắng

- Người ủng hộ mô hình nguồn mở cho rằng công nghệ sẽ phát triển nhanh và dân chủ hơn khi mọi người có thể sửa đổi và phân phối lại mã nguồn

- Sam Altman, CEO OpenAI, biện minh việc sử dụng mô hình đóng giúp dễ dàng đạt ngưỡng an toàn hơn, nhưng cũng bày tỏ mong muốn mở nguồn nhiều hơn trong tương lai

📌 DeepSeek đã gây bất ngờ khi vượt qua các công ty AI hàng đầu Mỹ với mô hình R1 nguồn mở. Meta đầu tư 60 tỷ USD vào AI năm 2025, khẳng định vai trò quan trọng của mô hình nguồn mở trong tương lai ngành công nghệ.

https://www.businessinsider.com/meta-ai-yann-lecun-deepseek-open-source-openai-2025-1

Thành công của DeepSeek cho thấy "mô hình mã nguồn mở đang vượt qua mô hình độc quyền"

Katie Balevic và Lakshmi Varanasi – Ngày 25/1/2025, 7:37 PM UTC

Tuần này, Silicon Valley trở nên căng thẳng sau khi DeepSeek, một công ty AI của Trung Quốc, ra mắt mô hình R1. Theo các đánh giá từ bên thứ ba, R1 vượt qua các công ty AI hàng đầu của Mỹ như OpenAI, Meta và Anthropic trên nhiều tiêu chí.

Đối với Yann LeCun, giám đốc khoa học AI của Meta, điều quan trọng nhất rút ra từ thành công của DeepSeek không phải là mối đe dọa gia tăng từ cạnh tranh với Trung Quốc, mà là giá trị của việc giữ các mô hình AI ở dạng mã nguồn mở, để tất cả mọi người đều có thể hưởng lợi.

Không phải AI của Trung Quốc đang "vượt qua Mỹ", mà đúng hơn là "các mô hình mã nguồn mở đang vượt qua các mô hình độc quyền", LeCun chia sẻ trong một bài đăng trên Threads.

DeepSeek và sức mạnh của mã nguồn mở

DeepSeek R1 là mã nguồn mở, tương tự như mô hình Llama của Meta. Tuy nhiên, OpenAI – ban đầu được thành lập như một công ty AI mã nguồn mở với sứ mệnh tạo ra công nghệ mang lại lợi ích cho toàn nhân loại – gần đây đã chuyển sang hướng độc quyền.

LeCun nhận xét rằng DeepSeek đã "hưởng lợi từ nghiên cứu mở và mã nguồn mở".

“Họ đã đưa ra những ý tưởng mới và xây dựng chúng dựa trên công trình của người khác. Vì công việc của họ được công bố và mở mã nguồn, tất cả mọi người đều có thể hưởng lợi từ nó,” LeCun nói. “Đó là sức mạnh của nghiên cứu mở và mã nguồn mở.”

Khi DeepSeek công bố R1 vào ngày 20/1, mô hình được giới thiệu là "có khả năng lý luận vượt trội", công ty khẳng định rằng họ đang "đẩy giới hạn" của AI mã nguồn mở.

Silicon Valley bất ngờ và phản ứng của Meta

Thông báo này đã gây bất ngờ cho Silicon Valley và trở thành sự kiện được bàn luận nhiều nhất trong ngành công nghệ tuần qua, bất chấp các diễn biến lớn khác như Diễn đàn Kinh tế Thế giới, sự không chắc chắn về TikTok, và những ngày đầu bận rộn của Tổng thống Donald Trump trong nhiệm kỳ mới.

Chỉ vài ngày sau thông báo của DeepSeek, CEO Meta Mark Zuckerberg cho biết Meta dự kiến chi hơn 60 tỷ USD trong năm 2025 để đầu tư mạnh mẽ hơn vào AI. Zuckerberg là người ủng hộ mạnh mẽ mô hình mã nguồn mở.

“Một phần mục tiêu của tôi trong 10-15 năm tới, với thế hệ nền tảng tiếp theo, là xây dựng các nền tảng mở mới và để chúng chiến thắng,” ông nói vào tháng 9. “Tôi tin rằng điều đó sẽ mang lại một ngành công nghệ sôi động hơn rất nhiều.”

Cuộc tranh luận: Mã nguồn mở và mô hình độc quyền

Những người ủng hộ mã nguồn mở cho rằng nó cho phép công nghệ phát triển nhanh chóng và dân chủ, vì bất kỳ ai cũng có thể chỉnh sửa và phân phối lại mã nguồn.

Ngược lại, những người ủng hộ mô hình độc quyền lập luận rằng nó an toàn hơn vì mã nguồn được giữ kín. CEO OpenAI Sam Altman nói rằng phương pháp độc quyền giúp công ty của ông "dễ dàng đạt đến ngưỡng an toàn hơn", trong một phiên AMA trên Reddit vào tháng 11 năm ngoái. Tuy nhiên, ông cũng bày tỏ: “Tôi muốn chúng tôi mở mã nguồn nhiều thứ hơn trong tương lai.”

Meta's chief AI scientist says DeepSeek's success shows that "open source models are surpassing proprietary ones"
Katie Balevic and Lakshmi Varanasi Jan 25, 2025, 7:37 PM UTC
Silicon Valley was on edge this week after DeepSeek, a Chinese AI company, released its R1 model. In third-party benchmarks, it outperformed leading American AI companies like OpenAI, Meta, and Anthropic.
For Meta's chief AI scientist, Yann LeCun, the biggest takeaway from DeepSeek's success was not the heightened threat posed by Chinese competition but the value of keeping AI models open source so that anyone can benefit.
It's not that China's AI is "surpassing the US," but rather that "open source models are surpassing proprietary ones," LeCun said in a post on Threads.
DeepSeek's R1 is itself open source, as is Meta's Llama. OpenAI, which was originally founded as an open-source AI company with a mission to create technology that benefits all of humanity, has on the other hand more recently shifted to closed-source.
LeCun said DeepSeek has "profited from open research and open source."
"They came up with new ideas and built them on top of other people's work. Because their work is published and open source, everyone can profit from it," LeCun said. "That is the power of open research and open source."
When DeepSeek unveiled R1 on January 20, which it said "demonstrates remarkable reasoning capabilities," the company said it was "pushing the boundaries" of open-source AI.
The announcement took Silicon Valley by surprise and was easily the most talked-about development in the tech industry during a week that included the World Economic Forum, TikTok uncertainty, and President Donald Trump's busy first few days in office.
Days after DeepSeek's announcement, Meta CEO Mark Zuckerberg said Meta planned to spend over $60 billion in 2025 as it doubles down on AI. Zuckerberg has been an outspoken advocate of open-source models.
"Part of my goal for the next 10-15 years, the next generation of platforms, is to build the next generation of open platforms and have the open platforms win," he said in September. "I think that's going to lead to a much more vibrant tech industry."
Those who support open source say it allows technology to develop rapidly and democratically since anyone can modify and redistribute the code. On the other hand, advocates for closed-source models argue that they are more secure because the code is kept private.
OpenAI CEO Sam Altman said the closed-source approach offers his company "an easier way to hit the safety threshold" in an AMA on Reddit last November. He added, however, that he "would like us to open source more stuff in the future."

Không có file đính kèm.

Nguồn tham khảo

173

AI mở-nguồn mở AI market 2025-01-26 10:49:36

Startup AI Trung Quốc DeepSeek vượt mặt OpenAI với 10.000 chip Nvidia và đội ngũ tài năng trẻ

- DeepSeek, phòng nghiên cứu AI Trung Quốc, đã phát hành mô hình nguồn mở DeepSeek-R1 vào ngày 20/1, vượt trội hơn các mô hình hàng đầu như OpenAI o1 về khả năng tính toán và suy luận

- Công ty được thành lập từ Fire-Flyer - nhánh nghiên cứu học sâu của quỹ đầu cơ High-Flyer, quỹ đầu tiên tại Trung Quốc huy động được hơn 100 tỷ NDT (khoảng 15 tỷ USD)

- Người sáng lập Liang Wenfeng đã đầu tư 10.000 chip Nvidia và tập trung vào nghiên cứu khoa học cơ bản thay vì lợi nhuận thương mại

- Chiến lược tuyển dụng độc đáo: ưu tiên sinh viên tiến sĩ mới tốt nghiệp từ các trường đại học hàng đầu Trung Quốc như Đại học Bắc Kinh và Đại học Thanh Hoa

- Đối mặt với lệnh kiểm soát xuất khẩu chip của Mỹ, DeepSeek đã phát triển phương pháp đào tạo hiệu quả hơn:
- Tối ưu hóa kiến trúc mô hình
- Phát triển Multi-head Latent Attention (MLA)
- Áp dụng Mixture-of-Experts

- Mô hình mới của DeepSeek chỉ cần 1/10 sức mạnh tính toán so với Llama 3.1 của Meta

- DeepSeek áp dụng phương pháp nguồn mở, khuyến khích cộng tác và đổi mới trong cộng đồng AI toàn cầu

- Thành công của DeepSeek có thể ảnh hưởng đến hiệu quả của chính sách kiểm soát xuất khẩu hiện tại của Mỹ

📌 DeepSeek đã chứng minh khả năng vượt trội với 10.000 chip Nvidia, đội ngũ nghiên cứu trẻ và chiến lược tối ưu hóa hiệu quả. Mô hình DeepSeek-R1 chỉ cần 1/10 sức mạnh tính toán so với đối thủ, thách thức vị thế các gã khổng lồ AI phương Tây.

https://www.wired.com/story/deepseek-china-model-ai/

Cách startup AI Trung Quốc DeepSeek tạo ra mô hình cạnh tranh với OpenAI

Khi Liang Wenfeng, nhà sáng lập quỹ đầu cơ định lượng Trung Quốc, chuyển sang nghiên cứu AI, ông mang theo 10.000 chip Nvidia và tập hợp một đội ngũ tài năng trẻ, đầy tham vọng. Hai năm sau, DeepSeek bùng nổ trên bản đồ AI thế giới.

Ngày 20/1, DeepSeek – một phòng thí nghiệm nghiên cứu AI tương đối ít được biết đến tại Trung Quốc – đã ra mắt một mô hình mã nguồn mở, nhanh chóng trở thành tâm điểm tại Silicon Valley. Theo tài liệu do công ty công bố, DeepSeek-R1 vượt qua các mô hình hàng đầu trong ngành như OpenAI o1 trên nhiều tiêu chuẩn đánh giá về toán học và lý luận. Trên nhiều chỉ số quan trọng như năng lực, chi phí và tính mở, DeepSeek đang thực sự thách thức các “ông lớn” AI phương Tây.

Thành công của DeepSeek phản ánh một hệ quả không mong muốn của cuộc chiến công nghệ giữa Mỹ và Trung Quốc. Các biện pháp kiểm soát xuất khẩu của Mỹ đã hạn chế nghiêm trọng khả năng cạnh tranh của các công ty công nghệ Trung Quốc trong cách làm AI kiểu phương Tây – tức là mở rộng quy mô vô hạn bằng cách mua thêm chip và huấn luyện mô hình trong thời gian dài hơn. Do đó, hầu hết các công ty Trung Quốc tập trung vào ứng dụng đầu cuối thay vì xây dựng mô hình của riêng mình. Nhưng với lần ra mắt này, DeepSeek đã chứng minh rằng có một con đường khác để chiến thắng: cải tiến cấu trúc nền tảng của các mô hình AI và sử dụng tài nguyên hạn chế một cách hiệu quả hơn.

“Không giống nhiều công ty AI Trung Quốc phụ thuộc nặng nề vào việc tiếp cận phần cứng tiên tiến, DeepSeek tập trung vào tối ưu hóa tài nguyên thông qua phần mềm,” Marina Zhang, phó giáo sư tại Đại học Công nghệ Sydney, chuyên nghiên cứu về đổi mới tại Trung Quốc, nhận xét. “DeepSeek đã áp dụng phương pháp mã nguồn mở, tập hợp chuyên môn tập thể và thúc đẩy đổi mới hợp tác. Cách tiếp cận này không chỉ giảm thiểu hạn chế về tài nguyên mà còn đẩy nhanh sự phát triển của các công nghệ tiên tiến, giúp DeepSeek vượt lên so với các đối thủ khép kín hơn.”

Ai đứng sau startup AI DeepSeek?

Và tại sao họ lại bất ngờ phát hành một mô hình hàng đầu ngành, đồng thời cung cấp miễn phí? WIRED đã trò chuyện với các chuyên gia trong ngành AI của Trung Quốc và xem qua các cuộc phỏng vấn chi tiết với nhà sáng lập DeepSeek, Liang Wenfeng, để ghép lại câu chuyện về sự trỗi dậy như vũ bão của công ty này. DeepSeek không phản hồi nhiều yêu cầu phỏng vấn của WIRED.

Một quỹ đầu cơ ngôi sao ở Trung Quốc

Ngay cả trong ngành AI của Trung Quốc, DeepSeek cũng là một cái tên khác thường. Công ty bắt đầu như Fire-Flyer, một nhánh nghiên cứu deep learning của High-Flyer – một trong những quỹ đầu cơ định lượng (quant hedge fund) hoạt động tốt nhất tại Trung Quốc. Được thành lập vào năm 2015, High-Flyer nhanh chóng vươn lên hàng đầu, trở thành quỹ đầu cơ định lượng đầu tiên tại Trung Quốc huy động được hơn 100 tỷ RMB (khoảng 15 tỷ USD). (Kể từ năm 2021, con số này đã giảm xuống còn khoảng 8 tỷ USD, dù vậy High-Flyer vẫn là một trong những quỹ đầu cơ định lượng quan trọng nhất của đất nước.)

Trong nhiều năm, High-Flyer đã tích trữ GPU và xây dựng siêu máy tính Fire-Flyer để phân tích dữ liệu tài chính. Đến năm 2023, Liang, người có bằng thạc sĩ về khoa học máy tính, quyết định đổ toàn bộ tài nguyên của quỹ vào một công ty mới mang tên DeepSeek, với tham vọng xây dựng các mô hình tiên tiến nhất và hy vọng phát triển trí tuệ nhân tạo tổng quát (AGI). Điều này giống như việc Jane Street (một quỹ đầu cơ nổi tiếng của Mỹ) chuyển đổi thành một startup AI và chi tiêu toàn bộ tiền mặt vào nghiên cứu khoa học.

Tầm nhìn táo bạo

Nhưng bằng cách nào đó, điều này đã hiệu quả. “DeepSeek đại diện cho một thế hệ mới các công ty công nghệ Trung Quốc, ưu tiên tiến bộ công nghệ dài hạn hơn là thương mại hóa nhanh chóng,” Zhang nhận định.

Trong một cuộc phỏng vấn với trang công nghệ Trung Quốc 36Kr, Liang cho biết quyết định này được thúc đẩy bởi sự tò mò khoa học chứ không phải mục tiêu lợi nhuận. “Ngay cả khi bạn yêu cầu tôi tìm một lý do thương mại để thành lập DeepSeek, tôi cũng không thể. Vì nó không đáng để làm về mặt thương mại. Nghiên cứu khoa học cơ bản có tỷ suất hoàn vốn đầu tư rất thấp. Khi các nhà đầu tư đầu tiên của OpenAI rót tiền cho họ, chắc chắn họ không nghĩ về lợi nhuận sẽ nhận được. Thay vào đó, họ thực sự muốn thực hiện điều này.”

Một startup không phụ thuộc vào các gã khổng lồ

Hiện nay, DeepSeek là một trong số ít các công ty AI hàng đầu tại Trung Quốc không dựa vào nguồn vốn từ các gã khổng lồ công nghệ như Baidu, Alibaba hay ByteDance.

Một nhóm thiên tài trẻ đầy khao khát khẳng định bản thân

Theo Liang Wenfeng, khi ông tập hợp đội ngũ nghiên cứu của DeepSeek, mục tiêu không phải là tìm những kỹ sư dày dạn kinh nghiệm để xây dựng sản phẩm hướng tới người tiêu dùng. Thay vào đó, ông tập trung vào các nghiên cứu sinh tiến sĩ từ các trường đại học hàng đầu Trung Quốc, bao gồm Đại học Bắc Kinh và Đại học Thanh Hoa – những người khao khát chứng tỏ bản thân. Theo tờ QBitAI, nhiều người trong số họ đã được công bố trên các tạp chí hàng đầu và giành giải thưởng tại các hội nghị học thuật quốc tế, nhưng lại thiếu kinh nghiệm trong ngành.

“Các vị trí kỹ thuật cốt lõi của chúng tôi hầu hết được lấp đầy bởi những người vừa tốt nghiệp trong năm nay hoặc 1-2 năm trước,” Liang chia sẻ với 36Kr vào năm 2023.

Chiến lược tuyển dụng này đã giúp tạo ra một văn hóa công ty hợp tác, nơi các nhân viên được tự do sử dụng nguồn tài nguyên tính toán dồi dào để theo đuổi các dự án nghiên cứu phi truyền thống. Điều này hoàn toàn khác biệt so với cách vận hành của các công ty internet lớn tại Trung Quốc, nơi các đội nhóm thường phải cạnh tranh khốc liệt để giành tài nguyên. (Ví dụ gần đây: ByteDance đã cáo buộc một thực tập sinh cũ – người từng giành giải thưởng học thuật danh giá – phá hoại công việc của đồng nghiệp để chiếm giữ thêm tài nguyên tính toán cho đội mình.)

Liang giải thích rằng sinh viên có thể phù hợp hơn với các dự án nghiên cứu đòi hỏi đầu tư lớn nhưng lợi nhuận thấp. “Hầu hết mọi người, khi còn trẻ, có thể hoàn toàn cống hiến cho một sứ mệnh mà không cần tính toán thực dụng,” ông nói. Lời kêu gọi của Liang với các ứng viên tiềm năng là DeepSeek được tạo ra để “giải quyết những câu hỏi khó nhất trên thế giới.”

Động lực từ sự giáo dục và lòng yêu nước

Theo các chuyên gia, việc những nhà nghiên cứu trẻ này hầu như đều được đào tạo tại Trung Quốc càng làm tăng thêm động lực của họ. “Thế hệ trẻ này cũng mang trong mình tinh thần yêu nước, đặc biệt khi họ đối mặt với các hạn chế và điểm nghẽn của Mỹ trong các công nghệ phần cứng và phần mềm quan trọng,” Zhang giải thích. “Quyết tâm vượt qua những rào cản này không chỉ phản ánh tham vọng cá nhân, mà còn thể hiện cam kết lớn hơn trong việc nâng cao vị thế của Trung Quốc như một nhà lãnh đạo đổi mới toàn cầu.”

Đổi mới sinh ra từ khủng hoảng

Vào tháng 10/2022, chính phủ Mỹ bắt đầu áp dụng các biện pháp kiểm soát xuất khẩu nghiêm ngặt, hạn chế mạnh mẽ khả năng tiếp cận các chip tiên tiến như Nvidia H100 của các công ty AI Trung Quốc. Động thái này đã đặt ra một thách thức lớn cho DeepSeek. Công ty khởi đầu với kho dự trữ 10.000 H100, nhưng cần nhiều hơn để cạnh tranh với các công ty như OpenAI và Meta. “Vấn đề chúng tôi đối mặt chưa bao giờ là vốn, mà là kiểm soát xuất khẩu chip tiên tiến,” Liang nói trong một cuộc phỏng vấn thứ hai với 36Kr vào năm 2024.

DeepSeek buộc phải phát triển các phương pháp hiệu quả hơn để huấn luyện mô hình của mình. “Họ đã tối ưu hóa kiến trúc mô hình bằng hàng loạt kỹ thuật kỹ thuật: các phương thức giao tiếp tùy chỉnh giữa các chip, giảm kích thước trường dữ liệu để tiết kiệm bộ nhớ, và sử dụng sáng tạo cách tiếp cận kết hợp mô hình (mix-of-models),” Wendy Chang, một kỹ sư phần mềm chuyển sang làm nhà phân tích chính sách tại Mercator Institute for China Studies, cho biết. “Nhiều trong số những cách tiếp cận này không phải là ý tưởng mới, nhưng việc kết hợp chúng thành công để tạo ra một mô hình tiên tiến là một kỳ công đáng chú ý.”

DeepSeek cũng đạt được tiến bộ lớn trong các thiết kế kỹ thuật như Multi-head Latent Attention (MLA) và Mixture-of-Experts, giúp các mô hình của DeepSeek hiệu quả hơn về chi phí bằng cách giảm nhu cầu sử dụng tài nguyên tính toán để huấn luyện. Theo tổ chức nghiên cứu Epoch AI, mô hình mới nhất của DeepSeek hiệu quả đến mức chỉ cần 1/10 sức mạnh tính toán so với mô hình Llama 3.1 của Meta để huấn luyện.

Sự cởi mở thu hút thiện cảm

Việc DeepSeek sẵn sàng chia sẻ các cải tiến của mình với công chúng đã giúp công ty giành được nhiều thiện cảm trong cộng đồng nghiên cứu AI toàn cầu. Đối với nhiều công ty AI Trung Quốc, việc phát triển các mô hình mã nguồn mở là cách duy nhất để đuổi kịp các đối thủ phương Tây, vì điều này thu hút thêm người dùng và cộng tác viên, từ đó giúp các mô hình ngày càng hoàn thiện hơn.

“Họ đã chứng minh rằng có thể xây dựng các mô hình tiên tiến bằng cách sử dụng ít tài nguyên hơn, mặc dù vẫn cần một lượng lớn tiền bạc,” Chang nhận xét. “Các chuẩn mực hiện tại trong việc xây dựng mô hình vẫn còn rất nhiều không gian để tối ưu hóa, và chắc chắn chúng ta sẽ thấy nhiều nỗ lực hơn theo hướng này trong tương lai.”

Tác động đến lệnh trừng phạt của Mỹ

Tin tức này có thể gây khó khăn cho các biện pháp kiểm soát xuất khẩu hiện tại của Mỹ, vốn tập trung vào việc tạo ra các điểm nghẽn tài nguyên tính toán. “Các ước tính hiện tại về lượng sức mạnh tính toán AI mà Trung Quốc sở hữu, cũng như những gì họ có thể đạt được với nó, có thể sẽ bị đảo lộn,” Chang cho biết.

Không có file đính kèm.

Nguồn tham khảo

100

AI mở-nguồn mở AI market 2025-01-26 09:54:19

MIT: Cách DeepSeek, startup AI Trung Quốc, phát triển mô hình AI R1 cạnh tranh với ChatGPT o1

- DeepSeek, startup AI Trung Quốc, đã phát triển mô hình lập luận nguồn mở R1 có hiệu suất tương đương hoặc vượt trội so với ChatGPT o1 nhưng chi phí thấp hơn nhiều

- Công ty được thành lập tháng 7/2023 bởi Liang Wenfeng, cựu sinh viên Đại học Zhejiang và là người sáng lập quỹ đầu cơ High-Flyer

- Trước khi lệnh cấm vận chip của Mỹ có hiệu lực, High-Flyer đã tích trữ được khoảng 50.000 chip Nvidia A100

- DeepSeek R1 được các nhà nghiên cứu đánh giá cao về khả năng xử lý các tác vụ lập luận phức tạp, đặc biệt trong toán học và lập trình

- Công ty đã phát hành 6 phiên bản nhỏ hơn của R1 có thể chạy trên laptop, trong đó một phiên bản vượt trội so với o1-mini của OpenAI trong một số tiêu chuẩn đánh giá

- Để tối ưu hiệu suất với nguồn lực hạn chế, DeepSeek đã cải tiến quy trình huấn luyện để giảm tải cho GPU và tập trung vào độ chính xác thay vì chi tiết hóa từng bước logic

- Theo thống kê, Trung Quốc hiện đóng góp 36% trong tổng số 1.328 mô hình ngôn ngữ lớn toàn cầu, đứng thứ hai sau Mỹ

- Các công ty Trung Quốc ngày càng hướng đến nguồn mở, như Alibaba Cloud đã phát hành hơn 100 mô hình AI hỗ trợ 29 ngôn ngữ

- Gần đây, Alibaba Cloud đã hợp tác với 01.AI của Kai-Fu Lee để sáp nhập đội ngũ nghiên cứu và thành lập phòng thí nghiệm mô hình lớn công nghiệp

📌 DeepSeek đã chứng minh khả năng đột phá khi tạo ra mô hình R1 cạnh tranh với ChatGPT o1 dù bị hạn chế chip. Với 50.000 chip A100 tích trữ và chiến lược tối ưu hóa hiệu quả, công ty đã biến thách thức từ lệnh cấm vận thành động lực đổi mới, góp phần đưa Trung Quốc chiếm 36% thị phần mô hình ngôn ngữ lớn toàn cầu.

https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/

#MIT

Cách một mô hình AI hàng đầu của Trung Quốc vượt qua lệnh trừng phạt của Mỹ

Với một mô hình lý luận mới sánh ngang hiệu năng của ChatGPT o1, DeepSeek đã biến các hạn chế thành đổi mới.
Tác giả: Caiwei Chen
Ngày 24/1/2025

Cộng đồng AI đang sôi động với sự xuất hiện của DeepSeek R1, một mô hình lý luận mã nguồn mở mới.

Mô hình này được phát triển bởi startup AI của Trung Quốc, DeepSeek, đơn vị khẳng định rằng R1 có khả năng ngang bằng hoặc thậm chí vượt qua ChatGPT o1 của OpenAI trên nhiều chỉ số quan trọng, nhưng hoạt động với chi phí chỉ bằng một phần nhỏ.

“Đây có thể là một bước đột phá thực sự giúp cân bằng, rất tuyệt vời cho các nhà nghiên cứu và nhà phát triển với nguồn lực hạn chế, đặc biệt là ở các nước thuộc khu vực Nam Bán Cầu,” Hancheng Cao, phó giáo sư về hệ thống thông tin tại Đại học Emory, nhận xét.

Thành công của DeepSeek càng đáng chú ý hơn trong bối cảnh các công ty AI của Trung Quốc phải đối mặt với các hạn chế gia tăng từ phía Mỹ, bao gồm kiểm soát xuất khẩu chip tiên tiến. Tuy nhiên, các bằng chứng ban đầu cho thấy các biện pháp này không đạt được mục tiêu như mong muốn. Thay vì làm suy yếu khả năng AI của Trung Quốc, các lệnh trừng phạt dường như đang thúc đẩy các startup như DeepSeek đổi mới theo hướng ưu tiên hiệu quả, chia sẻ tài nguyên và hợp tác.

Để tạo ra R1, DeepSeek đã phải điều chỉnh lại quy trình huấn luyện của mình nhằm giảm áp lực lên các GPU – loại chip được Nvidia phát hành riêng cho thị trường Trung Quốc, có hiệu năng bị giới hạn ở mức chỉ bằng một nửa so với các sản phẩm hàng đầu, theo Zihan Wang, một cựu nhân viên của DeepSeek hiện đang là nghiên cứu sinh tiến sĩ về khoa học máy tính tại Đại học Northwestern.

DeepSeek R1 đã nhận được nhiều lời khen ngợi từ các nhà nghiên cứu nhờ khả năng giải quyết các nhiệm vụ lý luận phức tạp, đặc biệt trong toán học và lập trình. Mô hình này sử dụng phương pháp “chain of thought” (chuỗi tư duy) tương tự ChatGPT o1, cho phép giải quyết vấn đề bằng cách xử lý từng bước một.

Dimitris Papailiopoulos, nhà nghiên cứu chính tại phòng thí nghiệm AI Frontiers của Microsoft, nói rằng điều làm ông ngạc nhiên nhất về R1 là sự đơn giản trong thiết kế kỹ thuật. “DeepSeek tập trung vào việc tạo ra câu trả lời chính xác thay vì chi tiết hóa mọi bước lập luận, giúp giảm đáng kể thời gian tính toán mà vẫn duy trì hiệu quả cao,” ông nhận xét.

DeepSeek phát hành phiên bản nhỏ gọn của R1, vượt qua thách thức từ lệnh trừng phạt của Mỹ

DeepSeek đã công bố 6 phiên bản nhỏ hơn của mô hình R1, có thể chạy trực tiếp trên máy tính xách tay. Công ty tuyên bố rằng một trong số này thậm chí vượt trội hơn o1-mini của OpenAI trên một số tiêu chuẩn đánh giá. “DeepSeek đã gần như sao chép o1-mini và mở mã nguồn cho nó,” CEO của Perplexity, Aravind Srinivas, viết trên Twitter. DeepSeek không trả lời yêu cầu bình luận từ MIT Technology Review.

Mặc dù nhận được sự chú ý nhờ mô hình R1, DeepSeek vẫn tương đối ít người biết đến. Công ty có trụ sở tại Hàng Châu, Trung Quốc, được thành lập vào tháng 7/2023 bởi Liang Wenfeng, một cựu sinh viên Đại học Chiết Giang với chuyên môn về kỹ thuật thông tin và điện tử. DeepSeek được ươm tạo bởi High-Flyer, một quỹ đầu cơ do Liang sáng lập vào năm 2015. Giống như Sam Altman của OpenAI, Liang đặt mục tiêu phát triển trí tuệ nhân tạo tổng quát (AGI) – một dạng AI có thể thực hiện các nhiệm vụ ngang hoặc vượt qua con người.

Đối phó với lệnh trừng phạt và khai thác tối đa tài nguyên

Huấn luyện các mô hình ngôn ngữ lớn (LLM) đòi hỏi một đội ngũ nghiên cứu viên được đào tạo cao cùng sức mạnh tính toán lớn. Trong một cuộc phỏng vấn với LatePost, Kai-Fu Lee, một doanh nhân kỳ cựu và cựu lãnh đạo Google Trung Quốc, cho biết chỉ “những người chơi hàng đầu” mới thường xuyên xây dựng các mô hình nền tảng như ChatGPT vì chi phí quá lớn. Tình hình càng trở nên khó khăn hơn do Mỹ kiểm soát xuất khẩu chip tiên tiến.

Tuy nhiên, quyết định mạo hiểm vào lĩnh vực AI của High-Flyer lại liên quan trực tiếp đến những hạn chế này. Trước khi các lệnh trừng phạt được dự đoán sẽ xảy ra, Liang đã tích lũy được một kho dự trữ lớn chip Nvidia A100 – loại hiện đã bị cấm xuất khẩu sang Trung Quốc. Theo ước tính của 36Kr, DeepSeek sở hữu hơn 10.000 đơn vị chip này, nhưng Dylan Patel, nhà sáng lập SemiAnalysis, cho rằng con số thực tế có thể lên tới 50.000. Khả năng nhìn nhận tiềm năng của kho chip này trong huấn luyện AI là lý do Liang thành lập DeepSeek, tận dụng chúng kết hợp với các chip công suất thấp hơn để phát triển mô hình.

Cạnh tranh trong hệ sinh thái AI Trung Quốc

Các gã khổng lồ công nghệ như Alibaba, ByteDance và một số startup có nhà đầu tư giàu tiềm lực thống trị lĩnh vực AI tại Trung Quốc, khiến các doanh nghiệp vừa và nhỏ khó cạnh tranh. DeepSeek, một công ty không có kế hoạch huy động vốn, là trường hợp hiếm hoi.

Zihan Wang, một cựu nhân viên của DeepSeek, nói với MIT Technology Review rằng ông từng được cấp quyền truy cập vào tài nguyên tính toán dồi dào và tự do thử nghiệm tại DeepSeek – “một điều xa xỉ mà ít sinh viên mới tốt nghiệp nào có được tại các công ty khác.”

Trong một cuộc phỏng vấn với 36Kr vào tháng 7/2024, Liang thừa nhận rằng ngoài lệnh trừng phạt chip, các công ty Trung Quốc còn phải đối mặt với thách thức từ kỹ thuật AI kém hiệu quả hơn. “Chúng tôi [hầu hết các công ty Trung Quốc] phải tiêu tốn gấp đôi sức mạnh tính toán để đạt được kết quả tương tự. Khi kết hợp với sự kém hiệu quả về dữ liệu, điều này có thể đòi hỏi gấp 4 lần sức mạnh tính toán. Mục tiêu của chúng tôi là liên tục thu hẹp những khoảng cách này,” Liang chia sẻ.

Tuy nhiên, DeepSeek đã tìm ra cách giảm mức tiêu thụ bộ nhớ và tăng tốc độ tính toán mà không làm giảm đáng kể độ chính xác. “Cả nhóm yêu thích việc biến thách thức phần cứng thành cơ hội đổi mới,” Wang nói.

Văn hóa mã nguồn mở và tương lai AI tại Trung Quốc

Không chỉ DeepSeek, các công ty Trung Quốc ngày càng áp dụng nguyên tắc mã nguồn mở. Alibaba Cloud đã phát hành hơn 100 mô hình AI mã nguồn mở mới, hỗ trợ 29 ngôn ngữ và phục vụ nhiều ứng dụng như lập trình và toán học. Tương tự, các startup như Minimax và 01.AI cũng đã mở mã nguồn cho các mô hình của mình.

Theo một báo cáo từ Viện Công nghệ và Thông tin Trung Quốc (CAICT), một tổ chức nghiên cứu trực thuộc nhà nước, số lượng mô hình ngôn ngữ lớn trên toàn thế giới đã đạt 1.328, trong đó 36% có nguồn gốc từ Trung Quốc. Điều này đưa Trung Quốc trở thành quốc gia đóng góp AI lớn thứ hai sau Hoa Kỳ.

“Thế hệ các nhà nghiên cứu trẻ tại Trung Quốc gắn bó chặt chẽ với văn hóa mã nguồn mở vì họ nhận được rất nhiều lợi ích từ đó,” Thomas Qitong Cao, phó giáo sư về chính sách công nghệ tại Đại học Tufts, nhận định.

“Các biện pháp kiểm soát xuất khẩu của Mỹ đã dồn các công ty Trung Quốc vào thế phải tối ưu hóa hơn nhiều với nguồn lực tính toán hạn chế,” Matt Sheehan, nhà nghiên cứu AI tại Carnegie Endowment for International Peace, nhận xét. “Chúng ta có thể sẽ thấy nhiều sự hợp nhất trong tương lai do thiếu tài nguyên tính toán.”

Dấu hiệu của xu hướng này dường như đã bắt đầu. Hai tuần trước, Alibaba Cloud thông báo hợp tác với startup 01.AI có trụ sở tại Bắc Kinh – được sáng lập bởi Kai-Fu Lee – để hợp nhất đội ngũ nghiên cứu và thành lập một “phòng thí nghiệm mô hình lớn công nghiệp.”

“Việc phân chia lao động trong ngành AI là tự nhiên và tiết kiệm năng lượng,” Cao, giáo sư tại Đại học Tufts, nhận định. “Sự phát triển nhanh chóng của AI đòi hỏi các công ty Trung Quốc phải có sự linh hoạt để tồn tại.”

Không có file đính kèm.

Nguồn tham khảo

103

AI mở-nguồn mở AI market 2025-01-26 09:18:34

Deepseek - Công ty AI với toàn bộ nhân lực đào tạo ở Trung Quốc gây chấn động Thung lũng Silicon

- Deepseek do nhà quản lý quỹ đầu cơ Liang Wenfeng sáng lập đã công bố mô hình R1 ngày 15/1/2024, chia sẻ chi tiết cách xây dựng mô hình ngôn ngữ lớn với ngân sách hạn chế

- Công ty chỉ sử dụng 2.048 chip Nvidia H800 và 5,6 triệu USD để huấn luyện mô hình có 671 tỷ tham số, một phần nhỏ so với chi phí của OpenAI và Google

- Liang Wenfeng bắt đầu dự án AI vào năm 2021 bằng cách mua hàng nghìn chip đồ họa Nvidia trong khi vẫn điều hành quỹ giao dịch High-Flyer

- Đội ngũ kỹ sư của Deepseek có kinh nghiệm tối ưu hóa hiệu suất chip từ thời làm việc tại quỹ đầu tư, giúp công ty vượt qua hạn chế về chip do lệnh cấm của Mỹ

- Công ty tập trung hoàn toàn vào nghiên cứu, không huy động vốn bên ngoài hay thương mại hóa mô hình

- Deepseek trả lương cao nhất cho kỹ sư AI tại Trung Quốc, cùng với ByteDance

- Đội ngũ nhân sự chủ yếu từ các trường đại học hàng đầu Trung Quốc như Bắc Kinh, Thanh Hoa và Bắc Hàng

- Liang được chọn làm đại diện duy nhất của ngành AI tham dự cuộc họp với Thủ tướng Lý Cường

- Các đối thủ Mỹ đang đầu tư mạnh: OpenAI hợp tác với Softbank trong dự án trị giá 100 tỷ USD, xAI của Elon Musk mở rộng siêu máy tính với hơn 1 triệu GPU

📌 Deepseek chứng minh khả năng cạnh tranh với các gã khổng lồ công nghệ phương Tây bằng cách xây dựng mô hình AI hiệu quả với chi phí thấp (5,6 triệu USD). Tuy nhiên, công ty đang đối mặt thách thức về nguồn lực tính toán khi các đối thủ Mỹ đầu tư hàng trăm tỷ USD vào cơ sở hạ tầng AI.

https://www.ft.com/content/747a7b11-dcba-4aa5-8d25-403f56216d7e

#FT

Công ty khởi nghiệp AI nhỏ DeepSeek của Trung Quốc khiến Silicon Valley bất ngờ
Tỷ phú quỹ đầu cơ Liang Wenfeng phát triển mô hình với ngân sách eo hẹp bất chấp nỗ lực của Mỹ nhằm ngăn chặn tham vọng công nghệ cao của Trung Quốc
Eleanor Olcott tại Bắc Kinh và Zijing Wu tại Hồng Kông hôm qua

Một phòng thí nghiệm trí tuệ nhân tạo nhỏ của Trung Quốc đã làm thế giới kinh ngạc trong tuần này khi công bố công thức kỹ thuật cho mô hình tiên tiến của mình, biến người sáng lập kín tiếng trở thành anh hùng quốc gia, người đã thách thức nỗ lực của Mỹ nhằm ngăn chặn tham vọng công nghệ cao của Trung Quốc.

DeepSeek, được sáng lập bởi nhà quản lý quỹ đầu cơ Liang Wenfeng, đã ra mắt mô hình R1 vào thứ hai, đồng thời giải thích trong một tài liệu chi tiết cách xây dựng một mô hình ngôn ngữ lớn với ngân sách hạn chế, có khả năng tự động học hỏi và cải thiện mà không cần sự can thiệp của con người.

Các công ty Mỹ bao gồm OpenAI và Google DeepMind đã tiên phong trong việc phát triển các mô hình lý luận, một lĩnh vực nghiên cứu AI tương đối mới đang cố gắng làm cho mô hình tương thích với khả năng nhận thức của con người. Vào tháng 12, OpenAI, có trụ sở tại San Francisco, đã phát hành phiên bản đầy đủ của mô hình o1 nhưng giữ bí mật phương pháp của mình.

Việc phát hành R1 của DeepSeek đã làm dấy lên một cuộc tranh luận sôi nổi tại Silicon Valley về việc liệu các công ty AI Mỹ được đầu tư mạnh mẽ hơn, bao gồm Meta và Anthropic, có thể bảo vệ lợi thế kỹ thuật của mình hay không.

Trong khi đó, Liang đã trở thành tâm điểm của niềm tự hào dân tộc ở quê nhà. Trong tuần này, ông là nhà lãnh đạo AI duy nhất được chọn tham dự một cuộc họp công khai với nhà lãnh đạo quyền lực thứ hai của đất nước, Lý Cường. Các doanh nhân được kêu gọi “dồn sức để đột phá các công nghệ cốt lõi then chốt.”

Năm 2021, Liang bắt đầu mua hàng ngàn bộ xử lý đồ họa Nvidia cho dự án phụ về AI của mình trong khi điều hành quỹ giao dịch định lượng High-Flyer. Những người trong ngành xem đây là hành động kỳ lạ của một tỷ phú đang tìm kiếm sở thích mới.

“Khi chúng tôi lần đầu gặp ông ấy, ông là một người trông rất mọt sách với kiểu tóc tệ, nói về việc xây dựng một cụm 10.000 chip để huấn luyện các mô hình của mình. Chúng tôi không coi trọng ông ấy,” một đối tác kinh doanh của Liang cho biết.

“Ông ấy không thể trình bày rõ tầm nhìn của mình ngoài việc nói: Tôi muốn xây cái này, và nó sẽ là bước ngoặt. Chúng tôi nghĩ rằng điều này chỉ có thể từ các tập đoàn khổng lồ như ByteDance và Alibaba,” người này nói thêm.

Tư cách người ngoài ngành AI của Liang lại trở thành một nguồn sức mạnh bất ngờ. Tại High-Flyer, ông đã xây dựng tài sản bằng cách sử dụng AI và thuật toán để xác định các mô hình có thể ảnh hưởng đến giá cổ phiếu. Đội ngũ của ông trở nên thông thạo việc sử dụng chip Nvidia để kiếm tiền từ giao dịch cổ phiếu. Năm 2023, ông ra mắt DeepSeek, công bố ý định phát triển AI đạt đến trình độ con người.

“Liang đã xây dựng một đội ngũ cơ sở hạ tầng xuất sắc, thực sự hiểu cách các con chip hoạt động,” một nhà sáng lập tại công ty LLM đối thủ cho biết. “Ông ấy mang theo những người giỏi nhất của mình từ quỹ đầu cơ đến DeepSeek.”

Sau khi Washington cấm Nvidia xuất khẩu các con chip mạnh nhất của mình sang Trung Quốc, các công ty AI trong nước buộc phải tìm cách sáng tạo để tối đa hóa sức mạnh tính toán của số lượng chip hạn chế trong nước – một vấn đề mà đội ngũ của Liang đã biết cách giải quyết từ trước.

“Kỹ sư của DeepSeek biết cách khai thác tiềm năng của các GPU này, ngay cả khi chúng không phải là loại tối tân nhất,” một nhà nghiên cứu AI thân cận với công ty cho biết.

Người trong ngành cho rằng việc DeepSeek tập trung duy nhất vào nghiên cứu khiến công ty trở thành đối thủ nguy hiểm vì sẵn sàng chia sẻ các đột phá của mình thay vì bảo vệ chúng để kiếm lợi nhuận thương mại. DeepSeek chưa huy động vốn từ các quỹ bên ngoài hay thực hiện các bước quan trọng để thương mại hóa các mô hình của mình.

“DeepSeek được vận hành giống như thời kỳ đầu của DeepMind,” một nhà đầu tư AI tại Bắc Kinh nhận xét. “Họ chỉ tập trung vào nghiên cứu và kỹ thuật.”

Liang, người trực tiếp tham gia vào nghiên cứu của DeepSeek, sử dụng lợi nhuận từ hoạt động giao dịch quỹ đầu cơ để trả lương cao nhất cho những tài năng AI hàng đầu. Cùng với ByteDance, chủ sở hữu TikTok, DeepSeek nổi tiếng là nơi trả mức thù lao cao nhất cho các kỹ sư AI tại Trung Quốc, với đội ngũ nhân viên làm việc tại các văn phòng ở Hàng Châu và Bắc Kinh.

“Văn phòng của DeepSeek giống như một khuôn viên đại học dành cho các nhà nghiên cứu nghiêm túc,” đối tác kinh doanh của Liang chia sẻ. “Đội ngũ tin tưởng vào tầm nhìn của Liang: chứng minh cho thế giới thấy rằng người Trung Quốc có thể sáng tạo và xây dựng mọi thứ từ con số không.”

DeepSeek và High-Flyer đã từ chối trả lời yêu cầu bình luận.

Liang đã định hình DeepSeek là một công ty “thuần túy nội địa”, nơi đội ngũ nhân viên là các tiến sĩ tốt nghiệp từ các trường đại học hàng đầu của Trung Quốc như Bắc Kinh, Thanh Hoa và Hàng Không Vũ Trụ Bắc Kinh, thay vì những chuyên gia từ các tổ chức Mỹ.

Trong một cuộc phỏng vấn với báo chí trong nước năm ngoái, Liang cho biết đội ngũ cốt lõi của mình “không có người nào trở về từ nước ngoài. Tất cả đều là trong nước... Chúng tôi phải tự phát triển nhân tài hàng đầu.” Việc DeepSeek là một công ty LLM thuần túy Trung Quốc đã mang lại cho họ nhiều lời khen ngợi trong nước.

DeepSeek tuyên bố đã sử dụng chỉ 2.048 GPU Nvidia H800 và 5,6 triệu USD để huấn luyện một mô hình với 671 tỷ tham số, chỉ bằng một phần nhỏ so với chi phí mà OpenAI và Google bỏ ra để huấn luyện các mô hình có kích thước tương đương.

Ritwik Gupta, nhà nghiên cứu chính sách AI tại Đại học California, Berkeley, cho rằng các mô hình mới được DeepSeek phát hành gần đây chứng minh rằng “không có bức tường thành nào trong khả năng AI.”

“Người đầu tiên huấn luyện các mô hình phải tiêu tốn rất nhiều nguồn lực để đạt được điều đó,” ông nói. “Nhưng người đi sau có thể đạt được điều đó với chi phí rẻ hơn và nhanh hơn.”

Gupta bổ sung rằng Trung Quốc có một đội ngũ kỹ sư hệ thống lớn hơn nhiều so với Mỹ, những người hiểu cách tối ưu hóa tài nguyên tính toán để huấn luyện và vận hành các mô hình với chi phí thấp hơn.

Người trong ngành nhận xét rằng mặc dù DeepSeek đã đạt được kết quả ấn tượng với nguồn lực hạn chế, nhưng vẫn là một câu hỏi bỏ ngỏ liệu họ có thể tiếp tục cạnh tranh khi ngành công nghiệp phát triển hay không.

Tỷ suất lợi nhuận tại High-Flyer, nhà tài trợ lớn của DeepSeek, đã giảm trong năm 2024, mà một người thân cận với Liang cho rằng là do nhà sáng lập tập trung phần lớn sự chú ý vào DeepSeek.

Các đối thủ Mỹ không đứng yên. Họ đang xây dựng các “cụm” siêu máy tính khổng lồ sử dụng chip thế hệ mới Blackwell của Nvidia, tạo ra sức mạnh tính toán có nguy cơ một lần nữa tạo ra khoảng cách hiệu năng với các đối thủ Trung Quốc.

Tuần này, OpenAI thông báo thành lập một liên doanh với SoftBank của Nhật Bản, được gọi là Stargate, với kế hoạch chi ít nhất 100 tỷ USD để xây dựng cơ sở hạ tầng AI tại Mỹ. xAI của Elon Musk đang mở rộng quy mô siêu máy tính Colossus của mình để chứa hơn 1 triệu GPU nhằm hỗ trợ huấn luyện các mô hình Grok AI.

“DeepSeek sở hữu một trong những cụm tính toán tiên tiến lớn nhất tại Trung Quốc,” đối tác kinh doanh của Liang cho biết. “Hiện tại họ có đủ năng lực, nhưng không kéo dài được lâu nữa.”

How small Chinese AI start-up DeepSeek shocked Silicon Valley
Hedge fund billionaire Liang Wenfeng builds model on tight budget despite US attempt to halt China’s high-tech ambitions
Eleanor Olcott in Beijing and Zijing Wu in Hong Kong yesterday

A small Chinese artificial intelligence lab stunned the world this week by revealing the technical recipe for its cutting-edge model, turning its reclusive leader into a national hero who has defied US attempts to stop China’s high-tech ambitions.
DeepSeek, founded by hedge fund manager Liang Wenfeng, released its R1 model on Monday, explaining in a detailed paper how to build a large language model on a bootstrapped budget that can automatically learn and improve itself without human supervision.
US companies including OpenAI and Google DeepMind pioneered developments in reasoning models, a relatively new field of AI research that is attempting to make models match human cognitive capabilities. In December, the San Francisco-based OpenAI released the full version of its o1 model but kept its methods secret.
DeepSeek’s R1 release sparked a frenzied debate in Silicon Valley about whether better resourced US AI companies, including Meta and Anthropic, can defend their technical edge.

Meanwhile, Liang has become a focal point of national pride at home. This week, he was the only AI leader selected to attend a publicised meeting of entrepreneurs with the country’s second-most powerful leader, Li Qiang. The entrepreneurs were told to “concentrate efforts to break through key core technologies.”
In 2021, Liang started buying thousands of Nvidia graphic processing units for his AI side project while running his quant trading fund High-Flyer. Industry insiders viewed it as the eccentric actions of a billionaire looking for a new hobby.
“When we first met him, he was this very nerdy guy with a terrible hairstyle talking about building a 10,000-chip cluster to train his own models. We didn’t take him seriously,” said one of Liang’s business partners.
“He couldn’t articulate his vision other than saying: I want to build this, and it will be a game change. We thought this was only possible from giants like ByteDance and Alibaba,” the person added.
Liang’s status as an outsider in the AI field was an unexpected source of strength. At High-Flyer, he built a fortune by using AI and algorithms to identify patterns that could affect stock prices. His team became adept at using Nvidia chips to make money trading stocks. In 2023, he launched DeepSeek, announcing his intention to develop human-level AI.
“Liang built an exceptional infrastructure team that really understands how the chips worked,” said one founder at a rival LLM company. “He took his best people with him from the hedge fund to DeepSeek.”

After Washington banned Nvidia from exporting its most powerful chips to China, local AI companies have been forced to find innovative ways to maximise the computing power of a limited number of onshore chips — a problem Liang’s team already knew how to solve.
“DeepSeek’s engineers know how to unlock the potential of these GPUs, even if they are not state of the art,” said one AI researcher close to the company.
Industry insiders say DeepSeek’s singular focus on research makes it a dangerous competitor because it is willing to share its breakthroughs rather than protect them for commercial gains. DeepSeek has not raised money from outside funds or made significant moves to monetise its models.
“DeepSeek is run like the early days of DeepMind,” said one AI investor in Beijing. “It is purely focused on research and engineering.”
Liang, who is personally involved in DeepSeek’s research, uses proceeds from his hedge fund trading to pay top salaries for the best AI talent. Along with TikTok-owner ByteDance, DeepSeek is known for giving the highest remuneration available to AI engineers in China, with staff based in offices in Hangzhou and Beijing.
“DeepSeek’s offices feel like a university campus for serious researchers,” said the business partner. “The team believes in Liang’s vision: to show the world that the Chinese can be creative and build something from zero.”
DeepSeek and High-Flyer did not respond to a request for comment.
Liang has styled DeepSeek as a uniquely “local” company, staffed with PhDs from top Chinese schools, Peking, Tsinghua and Beihang universities rather than experts from US institutions.
In an interview with the domestic press last year, he said his core team “did not have people who returned from overseas. They are all local . . . We have to develop the top talent ourselves”. DeepSeek’s identity as a purely Chinese LLM company has won it plaudits at home.
DeepSeek claimed it used just 2,048 Nvidia H800s and $5.6mn to train a model with 671bn parameters, a fraction of what OpenAI and Google spent to train comparably sized models.
Ritwik Gupta, AI policy researcher at the University of California, Berkeley, said DeepSeek’s recent model releases demonstrate that “there is no moat when it comes to AI capabilities”.
“The first person to train models has to expend lots of resources to get there,” he said. “But the second mover can get there cheaper and more quickly.”
Gupta added that China had a much larger talent pool of systems engineers than the US who understand how to get the best use of computing resources to train and run models more cheaply.
Industry insiders say that even though DeepSeek has shown impressive results with limited resources, it remains an open question whether it can continue to be competitive as the industry evolves.

Returns at High-Flyer, its big backer, lagged behind in 2024, which one person close to Liang blamed on the founder’s attention being mostly focused on DeepSeek.
Its US rivals are not standing still. They are building mega “clusters” of Nvidia’s next-generation Blackwell chips, creating the computing power that threatens to once again create a performance gap with Chinese rivals.
This week, OpenAI said it was creating a joint venture with Japan’s SoftBank, dubbed Stargate, with plans to spend at least $100bn on AI infrastructure in the US. Elon Musk’s xAI is massively expanding its Colossus supercomputer to contain more than 1mn GPUs to help train its Grok AI models.
“DeepSeek has one of the largest advanced computing clusters in China,” said Liang’s business partner. “They have enough capacity for now, but not much longer.”

Không có file đính kèm.

Nguồn tham khảo

119

AI nhỏ AI mở-nguồn mở 2025-01-24 16:44:05

Hugging Face ra mắt 2 mô hình AI đa phương thức nhỏ gọn SmolVLM, vượt trội hơn cả mô hình 80 tỷ tham số

- Hugging Face vừa công bố 2 mô hình AI đa phương thức mới: SmolVLM-256M và SmolVLM-500M, được cho là nhỏ nhất trong loại hình này

- 2 mô hình có kích thước lần lượt là 256 triệu và 500 triệu tham số, được thiết kế để hoạt động hiệu quả trên các thiết bị có giới hạn như laptop với RAM dưới 1GB

- Khả năng chính của các mô hình:
+ Mô tả hình ảnh và video clip
+ Trả lời câu hỏi về nội dung PDF
+ Phân tích văn bản quét và biểu đồ

- Quá trình huấn luyện sử dụng:
+ The Cauldron: tập hợp 50 bộ dữ liệu hình ảnh và văn bản chất lượng cao
+ Docmatix: bộ dữ liệu file quét kèm chú thích chi tiết

- Kết quả kiểm thử cho thấy cả 2 mô hình đều vượt trội hơn Idefics 80B (mô hình lớn hơn nhiều lần) trong các bài kiểm tra như AI2D về khả năng phân tích sơ đồ khoa học cấp tiểu học

- Mô hình được phát hành dưới giấy phép Apache 2.0, cho phép sử dụng không giới hạn

- Nghiên cứu từ Google DeepMind, Microsoft Research và viện nghiên cứu Mila Quebec chỉ ra rằng các mô hình nhỏ có thể kém hiệu quả hơn trong các tác vụ suy luận phức tạp, do chúng có xu hướng nhận diện mẫu bề mặt thay vì áp dụng kiến thức vào ngữ cảnh mới

📌 Hugging Face đã tạo bước đột phá với 2 mô hình AI đa phương thức siêu nhỏ gọn 256M và 500M tham số, hoạt động hiệu quả trên thiết bị RAM dưới 1GB. Mô hình vượt trội hơn Idefics 80B trong nhiều bài kiểm tra, mở ra khả năng ứng dụng AI trên các thiết bị có tài nguyên hạn chế.

https://techcrunch.com/2025/01/23/hugging-face-claims-its-new-ai-models-are-the-smallest-of-their-kind/

Không có file đính kèm.

Nguồn tham khảo

160

AI so sánh AI mở-nguồn mở 2025-01-21 20:48:47

DeepSeek-R1: Mô hình LLM mở mới vượt OpenAI o1 với chi phí chỉ thấp hơn 90-95%

- DeepSeek, một startup AI Trung Quốc, công bố mô hình LLM mở mới mang tên DeepSeek-R1, cải tiến hiệu suất và giảm chi phí tới 90-95% so với OpenAI o1.
- DeepSeek-R1 sử dụng mô hình hỗn hợp DeepSeek V3, đạt được hiệu suất tương đương với o1 trong các tác vụ toán học, lập trình và suy luận.
- Mô hình này hoàn toàn mở và có sẵn trên Hugging Face dưới giấy phép MIT, cho phép cộng động phát triển và sử dụng.
- Trong các bài kiểm tra, DeepSeek-R1 đạt 79.8% trong bài kiểm tra toán AIME 2024 và 97.3% trong MATH-500.
- DeepSeek-R1 cũng ghi điểm 2.029 trên Codeforces, tốt hơn 96.3% lập trình viên con người.
- DeepSeek-R1 cho thấy khả năng kiến thức tổng quát tốt với độ chính xác 90.8% trên MMLU, chỉ đứng sau o1 với 91.8%.
- Mô hình được phát triển từ DeepSeek-R1-Zero, sử dụng học tăng cường hoàn toàn mà không cần dữ liệu giám sát.
- DeepSeek-R1 được cải tiến bằng cách kết hợp học tăng cường và tinh chỉnh giám sát để xử lý các nhiệm vụ phức tạp.
- Chi phí sử dụng DeepSeek-R1 cực kỳ thấp so với OpenAI o1: 0.55 USD cho mỗi triệu token đầu vào và 2.19 USD cho mỗi triệu token đầu ra.
- Mô hình có thể được thử nghiệm trên nền tảng DeepSeek, tương tự như ChatGPT, và người dùng có thể truy cập mã nguồn và trọng số mô hình qua Hugging Face.

📌 DeepSeek-R1 đã chứng minh khả năng xuất sắc tại thị trường AI mở, đạt hiệu suất gần tương đương OpenAI o1 trong khi giảm chi phí tới 95%. Sự cạnh tranh này mở ra cơ hội cho AI mở phát triển mạnh mẽ hơn trong tương lai.

https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/

Không có file đính kèm.

Nguồn tham khảo

113

AI mở-nguồn mở 2025-01-16 17:47:08

LlamaV-o1, mô hình AI tiên tiến vượt trội trong khả năng lý luận từng bước qua văn bản và hình ảnh

- LlamaV-o1 là mô hình AI mới được công bố bởi Trường Đại học Nghệ thuật Nhân tạo Mohamed bin Zayed (MBZUAI), nổi bật với khả năng xử lý các bài toán lý luận phức tạp từ văn bản và hình ảnh.
- Mô hình này kết hợp giữa học tập theo chương trình tiên tiến và các kỹ thuật tối ưu hóa như Beam Search, tạo ra một tiêu chuẩn mới cho lý luận từng bước trong các hệ thống AI đa phương thức.
- LlamaV-o1 tập trung vào khả năng lý luận, giúp người dùng có thể theo dõi các bước logic mà mô hình thực hiện, điều này cực kỳ quan trọng trong các ứng dụng yêu cầu tính minh bạch.
- VRC-Bench được giới thiệu cùng với mô hình, là một tham số đánh giá khả năng lý luận của các mô hình AI thông qua hơn 1.000 mẫu và 4.000 bước lý luận, được coi là bước đột phá trong nghiên cứu AI đa phương thức.
- Trong các thử nghiệm, LlamaV-o1 đã vượt trội hơn các đối thủ như Claude 3.5 Sonnet và Gemini 1.5 Flash trong việc nhận diện mẫu và lý luận qua các tác vụ hình ảnh phức tạp.
- Mô hình đạt được điểm số lý luận là 68.93, cao hơn đáng kể so với các mô hình nguồn mở như LlaVA-CoT, cho thấy sự vượt trội của nó.
- Nhờ vào khả năng thực hiện các bước lý luận một cách tuần tự, LlamaV-o1 không chỉ chính xác mà còn nhanh chóng hơn, cung cấp lợi thế cho doanh nghiệp khi ứng dụng AI quy mô lớn.
- Mô hình này còn được phát triển để đáp ứng nhu cầu trong các lĩnh vực như tài chính và y tế, nơi cần sự minh bạch trong quyết định của AI.
- LlamaV-o1 cũng tỏ ra linh hoạt trong nhiều ứng dụng khác nhau, từ sản xuất nội dung đến các tác vụ hỗ trợ hội thoại.
- Các kết quả từ VRC-Bench cho thấy LlamaV-o1 đạt điểm trung bình 67.33% trong các bài kiểm tra lý luận, cho thấy tiềm năng và vị thế của nó trong không gian nguồn mở AI.
- Mặc dù LlamaV-o1 đạt nhiều thành tựu, nhưng cũng gặp những hạn chế giống như các mô hình AI khác, đặc biệt trong các tình huống yêu cầu độ chính xác cao như y tế và dự đoán tài chính.

📌 LlamaV-o1 nổi bật với khả năng lý luận từng bước, đạt điểm số 68.93 trong đánh giá và mở ra tiềm năng mới cho AI đa phương thức trong các lĩnh vực như tài chính và y tế.

https://venturebeat.com/ai/llamav-o1-is-the-ai-model-that-explains-its-thought-process-heres-why-that-matters/

Không có file đính kèm.

Nguồn tham khảo

101

AI mở-nguồn mở 2025-01-15 11:29:44

MiniMax ra mắt LLM nguồn mở với ngữ cảnh 4 triệu token

- MiniMax đã công bố dòng mô hình MiniMax-01, một gia đình mô hình mới cho phép xử lý ngữ cảnh lên tới 4 triệu token.
- Mô hình MiniMax-Text-01 là một LLM nền tảng, trong khi MiniMax-VL-01 là mô hình đa phương tiện trực quan.
- Ngữ cảnh 4 triệu token tương đương với lượng thông tin của một thư viện nhỏ, giúp mô hình xử lý nhiều dữ liệu hơn so với các mô hình đối thủ.
- Google trước đây dẫn đầu với mô hình Gemini 1.5 Pro có ngữ cảnh 2 triệu token, nhưng giờ đây MiniMax đã tăng gấp đôi khả năng này.
- MiniMax tin rằng khả năng quản lý ngữ cảnh mở rộng sẽ hỗ trợ sự bùng nổ ứng dụng liên quan đến AI agent trong năm tới.
- Các mô hình đã có sẵn để tải xuống trên Hugging Face và Github với giấy phép MiniMax tùy chỉnh.
- MiniMax cung cấp API với mức giá cạnh tranh: 0.2 USD cho 1 triệu token đầu vào và 1.1 USD cho 1 triệu token đầu ra.
- Mô hình MiniMax-01 sử dụng cơ chế Lightning Attention, một giải pháp thay thế cho kiến trúc transformer, làm giảm độ phức tạp tính toán.
- Các mô hình bao gồm 456 tỷ tham số, trong đó 45.9 tỷ được kích hoạt mỗi lần suy diễn.
- Lightning Attention kết hợp các lớp SoftMax truyền thống và tuyến tính, đạt được độ phức tạp gần như tuyến tính cho các đầu vào dài.
- MiniMax đã cải tiến quy trình đào tạo và suy diễn để hỗ trợ kiến trúc Lightning Attention với các tối ưu hóa mới.
- Các mô hình MiniMax-01 có khả năng cạnh tranh với các mô hình hàng đầu như GPT-4 và Claude-3.5, đặc biệt là trong các bài kiểm tra ngữ cảnh dài.
- MiniMax-Text-01 đã đạt độ chính xác 100% trong bài kiểm tra Needle-In-A-Haystack với ngữ cảnh 4 triệu token.
- MiniMax dự định cập nhật thường xuyên để mở rộng khả năng của các mô hình, bao gồm các cải tiến về mã và đa phương tiện.
- Công ty xem việc nguồn mở là bước tiến để xây dựng năng lực AI cơ bản cho lĩnh vực AI agent đang phát triển.
- MiniMax mời gọi các nhà phát triển và nhà nghiên cứu tham gia khám phá khả năng của MiniMax-01 và mở rộng hợp tác.

📌 MiniMax đã ra mắt mô hình LLM nguồn mở MiniMax-01 với ngữ cảnh 4 triệu token, vượt trội so với đối thủ. Mô hình hứa hẹn biến 2025 thành năm cách mạng cho AI agent với các tính năng cạnh tranh và giá cả hợp lý.

https://venturebeat.com/ai/minimax-unveils-its-own-open-source-llm-with-industry-leading-4m-token-context/

Không có file đính kèm.

Nguồn tham khảo

126

AI mở-nguồn mở 2025-01-13 16:01:04

Sky-T1, mô hình AI lý luận mở nguồn đầu tiên có thể được đào tạo với chi phí chỉ dưới 450 USD

- Sky-T1-32B-Preview là mô hình AI lý luận mở nguồn đầu tiên, được phát triển bởi nhóm nghiên cứu NovaSky từ UC Berkeley.
- Mô hình này cạnh tranh với phiên bản trước của mô hình o1 từ OpenAI trên nhiều tiêu chuẩn quan trọng.
- Sky-T1 được đào tạo với chi phí dưới 450 USD, cho thấy khả năng phát triển các mô hình AI lý luận với chi phí thấp và hiệu quả.
- Trước đây, chi phí để đào tạo một mô hình có hiệu suất tương tự thường lên tới hàng triệu USD.
- Việc sử dụng dữ liệu đào tạo tổng hợp đã giúp giảm thiểu chi phí, ví dụ như Palmyra X 004 chỉ tốn 700.000 USD để phát triển.
- Mô hình lý luận tự kiểm tra tính chính xác của chính nó, giúp giảm thiểu sai lầm hơn nhiều mô hình khác.
- Mặc dù Sky-T1 mất thời gian lâu hơn để đưa ra giải pháp (thường từ vài giây đến vài phút), nhưng độ tin cậy cao hơn trong các lĩnh vực như vật lý, khoa học và toán học.
- Nhóm NovaSky đã sử dụng mô hình QwQ-32B-Preview của Alibaba để tạo dữ liệu đào tạo cho Sky-T1, sau đó tinh chỉnh dữ liệu và cấu trúc lại với GPT-4o-mini của OpenAI.
- Việc đào tạo Sky-T1 với 32 tỷ tham số mất khoảng 19 giờ, sử dụng 8 GPU Nvidia H100.
- Sky-T1 có hiệu suất tốt hơn phiên bản preview của o1 trên MATH500, một bộ thách thức toán học ở mức độ cạnh tranh.
- Mặc dù vậy, Sky-T1 không đạt được hiệu suất như phiên bản preview của o1 trên GPQA-Diamond, tập hợp các câu hỏi về vật lý, sinh học và hóa học.
- OpenAI dự kiến sẽ phát hành một mô hình lý luận tốt hơn, o3, trong những tuần tới.
- Nhóm NovaSky cho biết Sky-T1 chỉ đánh dấu sự khởi đầu cho hành trình phát triển các mô hình mở nguồn với khả năng lý luận nâng cao.
- Họ hướng tới việc phát triển các mô hình hiệu quả hơn mà vẫn duy trì hiệu suất lý luận mạnh mẽ và khám phá các kỹ thuật tiên tiến để nâng cao độ chính xác tại thời điểm kiểm tra.

📌 NovaSky đã công bố Sky-T1, mô hình AI lý luận mở nguồn đầu tiên, với chi phí đào tạo chỉ 450 USD. Mô hình này cạnh tranh với o1 của OpenAI và hứa hẹn mở ra các cơ hội mới cho AI lý luận trong tương lai.

https://techcrunch.com/2025/01/11/researchers-open-source-sky-t1-a-reasoning-ai-model-that-can-be-trained-for-less-than-450/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2025-01-09 10:37:44

Microsoft vừa phát hành mô hình Phi-4 hoàn toàn mã nguồn mở trên Hugging Face

- Microsoft vừa công bố mô hình Phi-4 là một dự án mã nguồn mở hoàn toàn, có thể tải trên nền tảng Hugging Face.
- Mô hình Phi-4 có 14 tỷ tham số và được thiết kế để tối ưu hóa hiệu suất trong các tác vụ reasoning và xử lý ngôn ngữ.
- Trước khi trở thành mã nguồn mở, Phi-4 đã được giới thiệu trên nền tảng Azure AI Foundry và được sử dụng với giấy phép nghiên cứu.
- Mô hình đạt điểm số hơn 80% trong các bài kiểm tra như MATH và MGSM, vượt trội so với các mô hình lớn hơn như Gemini Pro của Google và GPT-4o-mini.
- Phi-4 nổi bật với khả năng lập luận toán học xuất sắc, rất hữu ích cho các lĩnh vực như tài chính, kỹ thuật và nghiên cứu khoa học.
- Quá trình đào tạo của Phi-4 sử dụng 9,8 triệu tỉ token từ các bộ dữ liệu công khai và tổng hợp, bao gồm tài liệu học thuật và dữ liệu giả lập.
- Mặc dù mô hình này chủ yếu tối ưu cho tiếng Anh, nhưng cũng hỗ trợ nội dung đa ngôn ngữ (8%).
- Microsoft đã thực hiện các quy trình bảo mật và điều chỉnh để đảm bảo hiệu suất và độ tin cậy của mô hình.
- Việc phát hành mã nguồn mở còn mang đến cơ hội cho các doanh nghiệp sử dụng Phi-4 trong các ứng dụng thương mại mà không cần xin phép từ Microsoft.
- Mô hình Phi-4 minh chứng rằng các mô hình nhỏ hơn, được thiết kế tốt có thể đạt kết quả tương tự hoặc tốt hơn so với các mô hình lớn, từ đó giảm chi phí và tiêu thụ năng lượng.

📌 Mô hình Phi-4 của Microsoft, vừa được phát hành mã nguồn mở trên Hugging Face, với 14 tỷ tham số, chứng tỏ rằng các mô hình nhỏ có thể đạt hiệu suất cao, tạo cơ hội cho nhiều nhà phát triển và doanh nghiệp khai thác công nghệ AI tiết kiệm hơn.

https://venturebeat.com/ai/microsoft-makes-powerful-phi-4-model-fully-open-source-on-hugging-face/

Không có file đính kèm.

Nguồn tham khảo

110

AI models AI robotics-auto-agents AI mở-nguồn mở 2025-01-08 05:54:45

NVIDIA công bố dòng mô hình Nemotron mới, tích hợp Llama và Cosmos cho AI agents

- NVIDIA công bố dòng mô hình ngôn ngữ lớn nguồn mở Llama Nemotron, xây dựng trên nền tảng Llama - bộ mô hình đã được tải xuống hơn 650 triệu lần

- Dòng sản phẩm bao gồm hai họ mô hình chính:
- Llama Nemotron: Tập trung vào xử lý ngôn ngữ
- Cosmos Nemotron: Chuyên về thị giác-ngôn ngữ

- Ba phiên bản mô hình được cung cấp:
- Nano: Tối ưu cho ứng dụng thời gian thực, độ trễ thấp
- Super: Độ chính xác cao, hiệu suất tốt trên một GPU
- Ultra: Độ chính xác cao nhất, thiết kế cho quy mô trung tâm dữ liệu

- Các tính năng chính của nền tảng:
- Tích hợp dịch vụ vi mô NVIDIA NIM
- Hỗ trợ tìm kiếm và tóm tắt video
- Khả năng tùy chỉnh cho từng doanh nghiệp
- Tích hợp NVIDIA NeMo Retriever để kết nối với dữ liệu doanh nghiệp

- Các đối tác hàng đầu đã áp dụng:
- SAP với nền tảng Joule
- ServiceNow cho dịch vụ AI tác tử

- Mô hình được tối ưu hóa thông qua:
- Kỹ thuật cắt tỉa (pruning)
- Huấn luyện với bộ dữ liệu chất lượng cao
- Tích hợp khả năng theo dõi hướng dẫn, trò chuyện, lập trình

- Tính khả dụng:
- Miễn phí cho thành viên NVIDIA Developer Program
- Triển khai thương mại thông qua nền tảng NVIDIA AI Enterprise
- Hỗ trợ đa dạng môi trường: đám mây, trung tâm dữ liệu, máy tính cá nhân

📌 NVIDIA định hình lại tương lai AI tác tử với dòng Nemotron, cung cấp giải pháp toàn diện từ biên đến trung tâm dữ liệu. Mô hình nguồn mở Llama đạt 650 triệu lượt tải xuống, kết hợp 3 phiên bản (Nano, Super, Ultra) đáp ứng mọi nhu cầu triển khai.

https://blogs.nvidia.com/blog/nemotron-model-families/

Không có file đính kèm.

Nguồn tham khảo

134

AI robotics-auto-agents AI mở-nguồn mở 2025-01-08 04:52:52

Nvidia ra mắt nền tảng Cosmos - bước đột phá ngành robot và xe tự hành với 20 triệu giờ dữ liệu thực tế

- Nvidia vừa công bố nền tảng AI Cosmos tại triển lãm CES 2025 ở Las Vegas, nhằm cách mạng hóa việc phát triển robot và xe tự hành

- Nền tảng này sử dụng world foundation models (WFMs) - các mạng neural có khả năng tạo mô phỏng video chính xác

- Cosmos được huấn luyện trên bộ dữ liệu khổng lồ gồm 20 triệu giờ thước phim thực tế về robot và lái xe

- Nền tảng cung cấp 3 loại mô hình: Nano, Super và Ultra cho các mức hiệu suất khác nhau

- Công nghệ cho phép xử lý 20 triệu giờ dữ liệu chỉ trong 14 ngày sử dụng GPU của Nvidia, thay vì mất nhiều năm với phương pháp thông thường

- Các công ty lớn đã áp dụng sớm bao gồm: Uber, Agility Robotics và các công ty xe tự hành Waabi, Wayve

- Cosmos được phát hành dưới dạng phần mềm nguồn mở thông qua nền tảng Hugging Face

- Nền tảng hỗ trợ tạo dữ liệu tổng hợp, cho phép nhà phát triển thử nghiệm trong môi trường ảo mà không cần dữ liệu thực tế lớn

- Theo giáo sư Farshid Amirabdollahian, các thách thức vẫn tồn tại bao gồm: chi phí, an toàn, quy định và nhận thức của công chúng

📌 Nvidia Cosmos đánh dấu bước tiến quan trọng trong ngành robot với khả năng xử lý 20 triệu giờ dữ liệu thực tế chỉ trong 14 ngày. Nền tảng nguồn mở này đang được các công ty hàng đầu như Uber và Agility Robotics áp dụng, hứa hẹn mang lại cuộc cách mạng trong phát triển robot và xe tự hành.

https://www.newsweek.com/nvidia-cosmos-ai-chatgpt-moment-robotics-2010961

Không có file đính kèm.

Nguồn tham khảo

108

AI data AI mở-nguồn mở 2024-12-28 09:27:50

Deepseek v3 từ Trung quốc, nhận nhầm mình là ChatGPT

- Deepseek, phòng thí nghiệm AI từ Trung quốc vừa phát hành mô hình AI nguồn mở Deepseek v3, vượt trội so với nhiều đối thủ trong các bài kiểm tra phổ biến

- Mô hình này thể hiện hiện tượng kỳ lạ khi tự nhận mình là Chatgpt và khẳng định là phiên bản của GPT-4 được phát hành năm 2023

- Trong 8 lần thử nghiệm, Deepseek v3 tự nhận là Chatgpt (v4) 5 lần và chỉ nhận đúng là Deepseek v3 3 lần

- Khi được hỏi về API của Deepseek, mô hình này lại đưa ra hướng dẫn sử dụng API của OpenAI

- Mike Cook, nghiên cứu viên tại King's College London, cho rằng hiện tượng này có thể do mô hình được huấn luyện trên dữ liệu có chứa phản hồi từ Chatgpt

- Điều khoản dịch vụ của OpenAI cấm người dùng sử dụng đầu ra để phát triển các mô hình cạnh tranh

- Sam Altman, CEO OpenAI, đã đăng bài chỉ trích: "Sao chép điều gì đó đã hoạt động thì tương đối dễ. Làm điều mới mẻ, rủi ro và khó khăn khi không biết liệu nó có hoạt động hay không mới thực sự khó"

- Theo ước tính, 90% nội dung web có thể được tạo bởi AI vào năm 2026

- Heidy Khlaaf, nhà khoa học trưởng về AI tại AI Now Institute, cho rằng việc "chưng cất" kiến thức từ mô hình hiện có có thể giúp tiết kiệm chi phí cho các nhà phát triển

📌 Deepseek v3 từ Trung quốc cho thấy vấn đề nghiêm trọng về dữ liệu huấn luyện AI khi tự nhận mình là Chatgpt trong 5/8 lần thử nghiệm. Hiện tượng này cảnh báo về nguy cơ 90% nội dung web sẽ do AI tạo ra vào 2026, ảnh hưởng đến chất lượng dữ liệu huấn luyện trong tương lai.

https://techcrunch.com/2024/12/27/why-deepseeks-new-ai-model-thinks-its-chatgpt/

Không có file đính kèm.

Nguồn tham khảo

143

AI mở-nguồn mở 2024-12-27 14:04:06

Deepseek V3: Mô hình ngôn ngữ nguồn mở mạnh nhất Trung Quốc ra mắt với tốc độ và hiệu năng vượt trội

- Deepseek V3 là mô hình ngôn ngữ nguồn mở mạnh mẽ nhất do công ty AI Trung Quốc phát triển.
- Mô hình này sử dụng kiến trúc Mixture-of-Experts (MoE) với 671 tỷ tham số, trong đó 37 tỷ tham số được kích hoạt cho mỗi token.
- So với phiên bản V2, V3 đã tăng gần gấp 3 lần số tham số, từ 236 tỷ lên 671 tỷ.
- V3 được huấn luyện với 14.8 triệu tỷ token, gấp gần 2 lần dữ liệu huấn luyện của V2.
- Thời gian huấn luyện tổng cộng là 2.788 triệu giờ GPU H800 với chi phí khoảng 5.576 triệu USD.
- Điều đáng chú ý là Deepseek chỉ sử dụng 2.000 GPU, rất ít so với 100.000 GPU mà các công ty lớn như Meta hay OpenAI thường sử dụng.
- Tốc độ xử lý của V3 đạt 60 token mỗi giây, nhanh gấp 3 lần so với phiên bản trước.
- Mô hình này đạt điểm cao nhất trong 3 trong 6 bài kiểm tra lớn về LLM, đặc biệt là bài kiểm tra MATH 500 với tỷ lệ chính xác 90.2%.
- Deepseek V3 cạnh tranh sòng phẳng với các mô hình độc quyền như GPT-4o và Claude-3.5-Sonnet.
- Mức giá API sẽ giữ nguyên cho đến ngày 8 tháng 2, sau đó sẽ là 0.27 USD cho mỗi triệu token đầu vào và 1.10 USD cho mỗi triệu token đầu ra.
- Deepseek cấp phép theo Giấy phép Deepseek 1.0, cho phép người dùng tái sản xuất, sửa đổi và phân phối mô hình, trừ các ứng dụng quân sự và dịch vụ pháp lý tự động hoàn toàn.
- Công ty dự định sẽ cải thiện kiến trúc mô hình và phá vỡ giới hạn của Transformer, đồng thời hỗ trợ chiều dài ngữ cảnh không giới hạn.

📌 Deepseek V3 ra mắt với 671 tỷ tham số, tốc độ 60 token/giây, và đạt tỷ lệ chính xác 90.2% trong bài kiểm tra MATH 500. Với chi phí hợp lý, mô hình này đang cạnh tranh với các sản phẩm hàng đầu như GPT-4o và Claude-3.5.

https://the-decoder.com/deepseek-v3-emerges-as-chinas-most-powerful-open-source-language-model-to-date/

Không có file đính kèm.

Nguồn tham khảo

128

AI mở-nguồn mở 2024-12-27 14:00:35

DeepSeek-V3: Mô hình AI cực lớn mã nguồn mở đánh bại Llama và Qwen ngay từ khi ra mắt

- DeepSeek, một công ty khởi nghiệp AI Trung Quốc, đã ra mắt mô hình DeepSeek-V3, mô hình AI mã nguồn mở lớn nhất với 671B thông số.
- DeepSeek-V3 sử dụng kiến trúc mixture-of-experts, cho phép chọn lọc các thông số để thực hiện nhiệm vụ hiệu quả và chính xác.
- Mô hình này đã vượt qua các mô hình mã nguồn mở hàng đầu hiện tại như Llama 3.1-405B và Qwen 2.5-72B, có hiệu suất gần tương đương với các mô hình đóng của Anthropic và OpenAI.
- DeepSeek-V3 áp dụng kiến trúc multi-head latent attention (MLA) cùng với DeepSeekMoE, cho phép sử dụng 37B thông số cho mỗi token.
- Hai cải tiến chính trong mô hình bao gồm chiến lược tải cân bằng không mất thêm chi phí và khả năng dự đoán nhiều token cùng lúc (MTP), giúp model hoạt động nhanh gấp 3 lần, tạo ra 60 token mỗi giây.
- Trong quá trình huấn luyện, DeepSeek-V3 được huấn luyện trên 14.8T token chất lượng cao và đa dạng, với chiều dài ngữ cảnh tối đa được mở rộng đến 128K.
- Tổng chi phí huấn luyện DeepSeek-V3 vào khoảng 5,57 triệu USD, thấp hơn nhiều so với hàng trăm triệu USD thường thấy ở các mô hình ngôn ngữ lớn khác.
- DeepSeek-V3 đạt điểm số cao nhất trong các bài kiểm tra liên quan đến tiếng Trung và toán học, với điểm số 90.2 trong bài kiểm tra Math-500.
- Mô hình này hiện có sẵn trên GitHub theo giấy phép MIT và có thể được thử nghiệm qua nền tảng DeepSeek Chat.
- Giá trị API của DeepSeek sẽ giữ nguyên cho đến ngày 8 tháng 2, sau đó sẽ tính phí 0.27 USD/triệu token đầu vào.

📌 DeepSeek-V3 ra mắt với 671B thông số và thực hiện 2788K giờ GPU, vượt qua Llama và Qwen, khẳng định vị thế của AI mã nguồn mở với hiệu suất ấn tượng trong các bài kiểm tra toán học và ngôn ngữ.

https://venturebeat.com/ai/deepseek-v3-ultra-large-open-source-ai-outperforms-llama-and-qwen-on-launch/

Không có file đính kèm.

Nguồn tham khảo

251

AI mở-nguồn mở AI data 2024-12-22 05:30:38

Hugging Face ra mắt FineMath - kho dữ liệu 50 tỷ token định hình lại cách máy tính học toán

- Hugging Face vừa công bố FineMath - bộ dữ liệu nguồn mở toàn diện nhằm cải thiện khả năng tiếp cận nội dung toán học chất lượng cao cho người học và nhà nghiên cứu

- FineMath gồm 2 phiên bản chính:
+ FineMath-3+: 34 tỷ token từ 21,4 triệu tài liệu, định dạng Markdown và LaTeX
+ FineMath-4+: 9,6 tỷ token từ 6,7 triệu tài liệu, tập trung vào nội dung chất lượng cao với giải thích chi tiết

- Quy trình tạo FineMath gồm nhiều giai đoạn:
+ Trích xuất dữ liệu thô từ CommonCrawl sử dụng công cụ Resiliparse
+ Đánh giá bằng bộ phân loại tùy chỉnh dựa trên Llama-3.1-70B-Instruct
+ Loại bỏ trùng lặp và đánh giá đa ngôn ngữ
+ Khắc phục vấn đề lọc ký hiệu LaTeX không chính xác

- Hiệu suất vượt trội trên các benchmark:
+ Cải thiện đáng kể về khả năng lập luận và độ chính xác toán học
+ Kết hợp với InfiMM-WebMath tạo bộ dữ liệu khoảng 50 tỷ token
+ Tích hợp dễ dàng vào các pipeline học máy

- Kế hoạch phát triển trong tương lai:
+ Mở rộng hỗ trợ ngôn ngữ ngoài tiếng Anh
+ Cải thiện trích xuất và bảo toàn ký hiệu toán học
+ Phát triển các chỉ số đánh giá chất lượng nâng cao
+ Tạo các tập con chuyên biệt cho từng cấp độ giáo dục

📌 Hugging Face đã tạo bước đột phá với FineMath - bộ dữ liệu nguồn mở 50 tỷ token cho AI học toán. Dataset này bao gồm 34 tỷ token từ FineMath-3+ và 9,6 tỷ token từ FineMath-4+, hỗ trợ cải thiện hiệu suất trên các benchmark như GSM8k và MATH.

https://www.marktechpost.com/2024/12/20/hugging-face-releases-finemath-the-ultimate-open-math-pre-training-dataset-with-50b-tokens/

Không có file đính kèm.

Nguồn tham khảo

135

AI market AI mở-nguồn mở 2024-12-18 01:35:19

Các mô hình AI nguồn mở của Trung Quốc đang vượt mặt đối thủ Mỹ để thống trị toàn cầu

• Các mô hình AI của Trung quốc đang trở nên phổ biến và đang bắt kịp, thậm chí vượt qua các đối thủ Mỹ về hiệu suất, trong bối cảnh Washington tiếp tục hạn chế Trung quốc tiếp cận chip AI tiên tiến.

• Qwen - gia đình mô hình AI được tạo bởi Alibaba đang là mô hình được tải xuống nhiều nhất trên nền tảng Hugging Face, với hiệu suất vượt trội trên các tiêu chuẩn cạnh tranh.

• DeepSeek, một startup Trung quốc, vừa ra mắt mô hình DeepSeek-R1 có thể cạnh tranh với OpenAI's o1 trong các tác vụ suy luận phức tạp.

• Các công ty Trung quốc đang tập trung vào chiến lược nguồn mở để thúc đẩy đổi mới và mở rộng sử dụng toàn cầu, khác với cách tiếp cận đóng của OpenAI.

• Mặc dù bị hạn chế tiếp cận chip Nvidia, các công ty Trung quốc vẫn phát triển được các mô hình AI tiên tiến nhờ dự trữ GPU và phát triển chip nội địa.

• Huawei, Baidu và Alibaba đang đầu tư mạnh vào thiết kế chip bán dẫn để thay thế Nvidia.

• Các chuyên gia nhận định rằng việc cấm vận chip của Mỹ sẽ không ngăn cản được Trung quốc phát triển cơ sở hạ tầng AI riêng.

• Các công ty Trung quốc xem LLM như trung tâm của hệ sinh thái công nghệ tương lai, tập trung vào việc xây dựng cộng đồng phát triển ứng dụng.

📌 Trung quốc đang dẫn đầu cuộc đua AI với mô hình Qwen của Alibaba được tải xuống nhiều nhất trên Hugging Face. Chiến lược nguồn mở và phát triển chip nội địa giúp vượt qua hạn chế từ Mỹ, đặt nền móng cho việc thống trị hệ sinh thái AI toàn cầu.

https://www.cnbc.com/2024/12/17/chinese-ai-models-are-popular-globally-and-are-beating-us-rivals-in-some-areas.html

Không có file đính kèm.

Nguồn tham khảo

135

AI models AI mở-nguồn mở 2024-12-17 05:32:30

Deepseek-AI ra mắt bộ 3 mô hình AI ngôn ngữ-thị giác siêu mạnh

• Deepseek-ai vừa công bố bộ mô hình Deepseek-vl2 nguồn mở gồm 3 phiên bản với số tham số khác nhau:
- Deepseek-vl2-tiny: 3,37 tỷ tham số (1,0 tỷ tham số được kích hoạt)
- Deepseek-vl2-small: 16,1 tỷ tham số (2,8 tỷ tham số được kích hoạt)
- Deepseek-vl2: 27,5 tỷ tham số (4,5 tỷ tham số được kích hoạt)

• Mô hình tích hợp các công nghệ tiên tiến:
- Dynamic tiling để mã hóa thông tin thị giác
- Cơ chế multi-head latent attention cho xử lý ngôn ngữ
- Framework deepseek-moe tối ưu hiệu năng

• Kết quả đánh giá ấn tượng:
- Độ chính xác 92,3% trong các tác vụ ocr với phiên bản small
- Cải thiện 15% độ chính xác trong visual grounding so với các mô hình tiền nhiệm
- Tiết kiệm 30% tài nguyên tính toán nhưng vẫn duy trì hiệu năng tốt nhất

• Các điểm nổi bật:
- Chia nhỏ ảnh độ phân giải cao thành các tile nhỏ hơn giúp cải thiện trích xuất đặc trưng
- Ba cấu hình linh hoạt phù hợp nhiều ứng dụng khác nhau
- Tập dữ liệu đa dạng giúp mô hình tổng quát hóa tốt
- Framework tính toán thưa thớt chỉ kích hoạt tham số cần thiết

📌 Deepseek-vl2 là bộ mô hình nguồn mở đột phá với 3 phiên bản từ 3b đến 27b tham số, đạt độ chính xác 92,3% trong ocr và tiết kiệm 30% tài nguyên. Kiến trúc moe cùng các cơ chế dynamic tiling và multi-head latent attention giúp mô hình xử lý hiệu quả cả ngôn ngữ và hình ảnh.

https://www.marktechpost.com/2024/12/15/deepseek-ai-open-sourced-deepseek-vl2-series-three-models-of-3b-16b-and-27b-parameters-with-mixture-of-experts-moe-architecture-redefining-vision-language-ai/

DeepSeek-AI Công Bố Open Source Bộ DeepSeek-VL2: Ba Mô Hình với 3 Tỉ, 16 Tỉ và 27 Tỉ Tham Số, Định Nghĩa Lại AI Kết Hợp Thị Giác và Ngôn Ngữ

Tác giả: Asif Razzaq - Ngày 15/12/2024

Việc tích hợp khả năng xử lý hình ảnh và ngôn ngữ trong AI đã tạo nên những đột phá trong các mô hình kết hợp thị giác và ngôn ngữ (Vision-Language Models - VLMs). Những mô hình này có khả năng xử lý và hiểu đồng thời dữ liệu hình ảnh và văn bản, mở ra nhiều ứng dụng như chú thích hình ảnh, trả lời câu hỏi dựa trên hình ảnh, nhận diện ký tự quang học (OCR), và phân tích nội dung đa phương tiện. Các VLMs đóng vai trò quan trọng trong việc phát triển hệ thống tự trị, cải thiện tương tác giữa con người và máy tính, và các công cụ xử lý tài liệu hiệu quả. Tuy nhiên, xử lý dữ liệu hình ảnh độ phân giải cao đồng thời với đầu vào văn bản phong phú vẫn là thách thức lớn trong lĩnh vực này.

Hạn chế của các mô hình hiện tại

Các nghiên cứu hiện có đã giải quyết một số hạn chế bằng cách sử dụng bộ mã hóa hình ảnh tĩnh, nhưng điều này khiến các mô hình thiếu tính thích ứng với dữ liệu độ phân giải cao và kích thước đầu vào thay đổi. Các mô hình ngôn ngữ được huấn luyện trước, khi kết hợp với bộ mã hóa hình ảnh, thường thiếu hiệu quả do không được tối ưu hóa cho các nhiệm vụ đa phương tiện. Một số mô hình sử dụng tính toán thưa (sparse computation) để quản lý độ phức tạp, nhưng thường không đạt độ chính xác cao trên nhiều tập dữ liệu khác nhau. Hơn nữa, dữ liệu huấn luyện của các mô hình này thường thiếu đa dạng và không đủ chi tiết theo từng nhiệm vụ, làm giảm hiệu suất trong các tác vụ chuyên biệt như phân tích biểu đồ hoặc tài liệu dày đặc.

DeepSeek-VL2: Bộ mô hình VLM tiên tiến

Các nhà nghiên cứu từ DeepSeek-AI đã giới thiệu DeepSeek-VL2, một thế hệ mô hình thị giác-ngôn ngữ dựa trên kiến trúc hỗn hợp chuyên gia (Mixture-of-Experts - MoE). Bộ mô hình này tích hợp các cải tiến tiên tiến, bao gồm:

Dynamic Tiling: Giúp mã hóa hình ảnh độ phân giải cao mà không làm mất chi tiết quan trọng.
Multi-head Latent Attention: Tăng cường hiệu quả xử lý văn bản với khối lượng lớn.
DeepSeek-MoE Framework: Kích hoạt chỉ một phần nhỏ tham số của mô hình, tối ưu hóa hiệu quả và khả năng mở rộng.

Các cấu hình của DeepSeek-VL2

DeepSeek-VL2 được giới thiệu với ba cấu hình:

DeepSeek-VL2-Tiny: 3,37 tỉ tham số (1 tỉ tham số được kích hoạt).
DeepSeek-VL2-Small: 16,1 tỉ tham số (2,8 tỉ tham số được kích hoạt).
DeepSeek-VL2: 27,5 tỉ tham số (4,5 tỉ tham số được kích hoạt).

Các cấu hình này đảm bảo khả năng thích ứng với nhu cầu ứng dụng và ngân sách tính toán khác nhau.

Hiệu suất vượt trội

DeepSeek-VL2 được thiết kế để tối ưu hóa hiệu năng trong khi giảm thiểu yêu cầu tính toán. Một số thành tựu của mô hình:

Xử lý hình ảnh chi tiết: Dynamic Tiling cho phép phân tách hình ảnh độ phân giải cao thành các phần nhỏ, tối ưu hóa việc trích xuất đặc trưng.
Hiệu quả vượt trội: Mô hình yêu cầu ít hơn 30% tài nguyên tính toán so với các mô hình tương đương mà vẫn duy trì độ chính xác tiên tiến.
Độ chính xác cao: Đạt 92,3% chính xác trong tác vụ OCR, vượt xa các mô hình hiện tại. Trong bài toán định vị trực quan (visual grounding), mô hình cải thiện độ chính xác lên đến 15%.
Khả năng tổng quát hóa tốt: DeepSeek-VL2 đạt điểm số dẫn đầu trong các tiêu chuẩn lý luận đa phương tiện.

Điểm nổi bật của DeepSeek-VL2

Phân mảnh hình ảnh động: Cách tiếp cận này cải thiện việc trích xuất đặc trưng và giảm bớt gánh nặng tính toán, đặc biệt hiệu quả trong phân tích tài liệu dày đặc và bố cục phức tạp.
Ba cấu hình đa dạng: Tiny, Small và Standard giúp đáp ứng nhiều nhu cầu, từ triển khai nhẹ đến các tác vụ đòi hỏi nhiều tài nguyên.
Dữ liệu đa nhiệm toàn diện: Bộ dữ liệu huấn luyện bao quát các nhiệm vụ như OCR và định vị trực quan, nâng cao khả năng tổng quát hóa và hiệu suất theo từng nhiệm vụ.
Tính toán thưa: Chỉ kích hoạt các tham số cần thiết, giảm đáng kể chi phí tính toán mà không làm giảm độ chính xác.

Kết luận

DeepSeek-VL2 là bộ mô hình kết hợp thị giác và ngôn ngữ mã nguồn mở với ba cấu hình (1,8 tỉ, 2,8 tỉ và 4,5 tỉ tham số kích hoạt). Bộ mô hình này mang lại khả năng mở rộng, hiệu quả tính toán cao và thích ứng với nhiệm vụ, vượt qua những hạn chế quan trọng của các mô hình hiện có. Các cơ chế đột phá như Dynamic Tiling và Multi-head Latent Attention cho phép xử lý hình ảnh chính xác và văn bản hiệu quả, đạt được kết quả tiên tiến trong các nhiệm vụ như OCR và định vị trực quan.

DeepSeek-VL2 thiết lập một tiêu chuẩn mới trong hiệu năng AI, mang lại những đột phá trong ứng dụng thực tiễn.

Không có file đính kèm.

Nguồn tham khảo

142

AI doanh nghiệp AI mở-nguồn mở 2024-12-15 04:35:59

Hugging Face ra mắt dịch vụ HUGS giúp triển khai AI tạo sinh với chi phí thấp 1 USD/giờ/container

• Hugging Face vừa công bố dịch vụ mới có tên Hugging Face Generative AI Services (HUGS) nhằm đơn giản hóa việc triển khai và mở rộng các ứng dụng AI tạo sinh sử dụng mô hình nguồn mở.

• HUGS được xây dựng dựa trên các công nghệ của Hugging Face như Transformers và Text Generation Inference (TGI), hứa hẹn hiệu suất tối ưu trên nhiều bộ tăng tốc phần cứng khác nhau.

• Chi phí dịch vụ chỉ 1 USD/giờ/container khi sử dụng trên AWS hoặc Google Cloud, kèm theo gói dùng thử miễn phí 5 ngày trên AWS.

• Dịch vụ tự động tối ưu hóa mô hình cho từng môi trường phần cứng cụ thể, giúp đạt hiệu suất cao mà không cần cấu hình thủ công. Hỗ trợ GPU của NVIDIA, AMD và sắp tới là AWS Inferentia và Google TPUs.

• HUGS hỗ trợ nhiều mô hình nổi tiếng như Llama, Gemma và sẽ sớm bổ sung các mô hình multimodal như Idefics, Llava cùng các mô hình embedding như BGE và Jina.

• Dịch vụ sử dụng API chuẩn hóa tương thích với giao diện mô hình của OpenAI, giúp các nhà phát triển dễ dàng chuyển đổi mã nguồn.

• Đặc biệt phù hợp với các startup khi cung cấp triển khai một chạm trên DigitalOcean mà không tính phí thêm ngoài chi phí GPU Droplets tiêu chuẩn.

• Doanh nghiệp lớn có thể mở rộng ứng dụng mà không bị phụ thuộc vào một nhà cung cấp đám mây hay API độc quyền. Hugging Face cũng cung cấp giải pháp triển khai tùy chỉnh qua Enterprise Hub.

📌 Hugging Face tạo bước đột phá với HUGS - dịch vụ triển khai AI tạo sinh giá rẻ chỉ 1 USD/giờ/container, hỗ trợ đa dạng mô hình nguồn mở và tự động tối ưu hóa trên nhiều nền tảng phần cứng, mở ra cơ hội lớn cho startup tiếp cận công nghệ AI.

https://www.techradar.com/pro/Hugging-Face-launches-new-an-open-source-tool-for-affordable-AI-deployment

Không có file đính kèm.

Nguồn tham khảo

142

AI mở-nguồn mở AI models 2024-12-07 04:38:26

Meta phát hành Llama 3.3 hiệu năng cao, 70 tỷ tham số, tiết kiệm chi phí GPU

- Meta vừa công bố Llama 3.3, mô hình ngôn ngữ lớn đa ngôn ngữ nguồn mở mới nhất, do Ahmad Al-Dahle - Phó chủ tịch AI tạo sinh của Meta thông báo

- Model có 70 tỷ tham số nhưng cho kết quả tương đương với phiên bản Llama 3.1 có 405 tỷ tham số, giúp tiết kiệm đáng kể tài nguyên tính toán

- Llama 3.3 được huấn luyện trên:
+ 15 nghìn tỷ token từ dữ liệu công khai
+ 25 triệu ví dụ được tạo tổng hợp
+ Sử dụng 39,3 triệu giờ GPU H100-80GB

- Ưu điểm nổi bật:
+ Độ chính xác 91,1% trong các tác vụ suy luận đa ngôn ngữ
+ Hỗ trợ nhiều ngôn ngữ: Đức, Pháp, Ý, Hindi, Bồ Đào Nha, Tây Ban Nha, Thái và Anh
+ Chi phí sinh token chỉ 0,01 USD/triệu token
+ Cửa sổ ngữ cảnh 128k token (khoảng 400 trang sách)

- Về môi trường:
+ Phát thải 11.390 tấn CO2
+ Meta sử dụng năng lượng tái tạo để bù đắp, đạt mức phát thải ròng bằng 0

- Tiết kiệm tài nguyên:
+ Giảm bộ nhớ GPU từ 1.944 GB xuống còn 4 GB
+ Tiết kiệm đến 600.000 USD chi phí GPU ban đầu
+ Giảm 24 lần tải GPU so với GPU H100 tiêu chuẩn 80 GB

📌 Llama 3.3 đánh dấu bước tiến mới trong việc tối ưu mô hình AI: nhỏ gọn với 70 tỷ tham số nhưng hiệu năng ngang ngửa model 405 tỷ tham số, tiết kiệm 600.000 USD chi phí GPU, đạt độ chính xác 91,1% trong xử lý đa ngôn ngữ và hoạt động với phát thải carbon ròng bằng 0.

https://venturebeat.com/ai/meta-launches-open-source-llama-3-3-shrinking-powerful-bigger-model-into-smaller-size/

Meta ra mắt Llama 3.3 mã nguồn mở, thu nhỏ mô hình mạnh mẽ lớn hơn thành kích thước nhỏ hơn

@carlfranzen
6 tháng 12, 2024, 10:24 AM

Phó Chủ tịch AI tạo sinh của Meta, Ahmad Al-Dahle, hôm nay đã công bố trên mạng xã hội đối thủ X về việc phát hành Llama 3.3, mô hình ngôn ngữ lớn (LLM) đa ngôn ngữ mã nguồn mở mới nhất từ công ty mẹ của Facebook, Instagram, WhatsApp và Quest VR.

Ông viết: “Llama 3.3 cải thiện hiệu năng cốt lõi với chi phí thấp hơn đáng kể, giúp cộng đồng mã nguồn mở dễ dàng tiếp cận hơn bao giờ hết.”

Với 70 tỷ tham số — các cài đặt điều chỉnh hành vi của mô hình — Llama 3.3 mang lại kết quả tương đương với mô hình 405 tỷ tham số của Llama 3.1 phát hành mùa hè vừa qua, nhưng với chi phí và yêu cầu tính toán thấp hơn nhiều, chẳng hạn như dung lượng GPU cần thiết để chạy mô hình trong quá trình suy luận.

Mô hình được thiết kế để cung cấp hiệu năng hàng đầu và tính tiếp cận cao trong một gói gọn gàng hơn so với các mô hình nền tảng trước đó.

Bản quyền và các điều khoản sử dụng

Llama 3.3 được cung cấp theo Thỏa thuận Cấp phép Cộng đồng Llama 3.3, cấp phép không độc quyền và miễn phí bản quyền cho việc sử dụng, sao chép, phân phối và sửa đổi mô hình cũng như các đầu ra của nó. Các nhà phát triển tích hợp Llama 3.3 vào sản phẩm hoặc dịch vụ phải ghi nhận thích hợp, chẳng hạn “Được xây dựng với Llama,” và tuân thủ Chính sách Sử dụng Chấp nhận được, cấm các hoạt động như tạo nội dung gây hại, vi phạm pháp luật hoặc hỗ trợ các cuộc tấn công mạng. Mặc dù giấy phép này thường miễn phí, các tổ chức có trên 700 triệu người dùng hoạt động hàng tháng phải mua giấy phép thương mại trực tiếp từ Meta.

Trong một tuyên bố, nhóm AI tại Meta nhấn mạnh tầm nhìn này: “Llama 3.3 mang lại hiệu năng và chất lượng hàng đầu cho các trường hợp sử dụng dựa trên văn bản với chi phí suy luận chỉ bằng một phần nhỏ.”

Tiết kiệm chi phí và tài nguyên GPU

Một số ước tính sơ bộ:
Llama 3.1-405B yêu cầu từ 243 GB đến 1944 GB bộ nhớ GPU, theo blog Substratus. Trong khi đó, Llama 2-70B cũ hơn yêu cầu từ 42-168 GB bộ nhớ GPU, theo cùng nguồn blog, và một số tuyên bố chỉ cần 4 GB, hoặc như Exo Labs đã chứng minh, chỉ cần vài máy Mac có chip M4 và không cần GPU rời.

Nếu tiết kiệm GPU từ các mô hình tham số thấp hơn tiếp tục được duy trì, người dùng muốn triển khai các mô hình Llama mã nguồn mở mạnh mẽ nhất của Meta có thể tiết kiệm gần 1940 GB bộ nhớ GPU, tương đương với tải GPU giảm 24 lần trên một GPU Nvidia H100 80 GB tiêu chuẩn.

Với giá ước tính 25.000 USD mỗi GPU H100, khoản tiết kiệm ban đầu có thể lên tới 600.000 USD, chưa kể chi phí năng lượng liên tục.

Mô hình nhỏ gọn nhưng hiệu năng cao

Theo Meta AI trên X, mô hình Llama 3.3 vượt trội so với Llama 3.1-70B có cùng kích thước và cả mô hình Nova Pro mới của Amazon trong nhiều tiêu chuẩn đánh giá, như đối thoại đa ngôn ngữ, lý luận và các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) nâng cao (mặc dù Nova vượt trội hơn trong nhiệm vụ mã hóa HumanEval).

Llama 3.3 được huấn luyện trên 15 nghìn tỷ token từ dữ liệu “công khai” và tinh chỉnh trên hơn 25 triệu ví dụ tổng hợp, theo thông tin trong “thẻ mô hình” Meta đăng tải trên trang web.

Dựa trên 39,3 triệu giờ GPU trên phần cứng H100-80GB, quá trình phát triển mô hình cho thấy cam kết của Meta với hiệu quả năng lượng và bền vững.

Llama 3.3 dẫn đầu trong các nhiệm vụ lý luận đa ngôn ngữ với độ chính xác 91,1% trên MGSM, thể hiện hiệu quả hỗ trợ các ngôn ngữ như tiếng Đức, Pháp, Ý, Hindi, Bồ Đào Nha, Tây Ban Nha, Thái Lan và tiếng Anh.

Tiết kiệm chi phí và thân thiện với môi trường

Llama 3.3 được tối ưu hóa đặc biệt cho suy luận chi phí thấp, với chi phí tạo token chỉ từ 0,01 USD mỗi triệu token.

Điều này làm cho mô hình rất cạnh tranh so với các đối thủ trong ngành như GPT-4 và Claude 3.5, với chi phí thấp hơn dành cho các nhà phát triển muốn triển khai các giải pháp AI tiên tiến.

Meta cũng nhấn mạnh trách nhiệm môi trường trong lần phát hành này. Dù quá trình huấn luyện đòi hỏi tài nguyên lớn, công ty đã sử dụng năng lượng tái tạo để bù đắp khí thải nhà kính, dẫn đến phát thải ròng bằng 0 trong giai đoạn huấn luyện. Lượng phát thải tại chỗ lên tới 11.390 tấn CO2 tương đương, nhưng các sáng kiến năng lượng tái tạo của Meta đảm bảo tính bền vững.

Các tính năng nâng cao và tùy chọn triển khai

Mô hình giới thiệu nhiều cải tiến, bao gồm cửa sổ ngữ cảnh dài hơn với 128.000 token (tương đương khoảng 400 trang sách), phù hợp cho việc tạo nội dung dài và các trường hợp sử dụng nâng cao khác.

Kiến trúc của mô hình tích hợp Grouped Query Attention (GQA), cải thiện khả năng mở rộng và hiệu năng trong quá trình suy luận.

Được thiết kế để phù hợp với sở thích người dùng về an toàn và tính hữu ích, Llama 3.3 sử dụng học tăng cường với phản hồi từ con người (RLHF) và tinh chỉnh giám sát (SFT). Các cải tiến này đảm bảo mô hình từ chối mạnh mẽ các yêu cầu không phù hợp và hành vi hỗ trợ giống như trợ lý, được tối ưu hóa cho các ứng dụng thực tế.

Llama 3.3 đã sẵn sàng để tải xuống qua Meta, Hugging Face, GitHub và các nền tảng khác, với các tùy chọn tích hợp cho các nhà nghiên cứu và nhà phát triển. Meta cũng cung cấp các tài nguyên như Llama Guard 3 và Prompt Guard để hỗ trợ người dùng triển khai mô hình một cách an toàn và có trách nhiệm.

Meta launches open source Llama 3.3, shrinking powerful bigger model into smaller size

Carl Franzen @carlfranzen

December 6, 2024 10:24 AM

Join our daily and weekly newsletters for the latest updates and exclusive content on industry-leading AI coverage. Learn More

Meta’s VP of generative AI, Ahmad Al-Dahle took to rival social network X today to announce the release of Llama 3.3, the latest open-source multilingual large language model (LLM) from the parent company of Facebook, Instagram, WhatsApp and Quest VR.

As he wrote: “Llama 3.3 improves core performance at a significantly lower cost, making it even more accessible to the entire open-source community.”

With 70 billion parameters — or settings governing the model’s behavior — Llama 3.3 delivers results on par with Meta’s 405B parameter model from the Llama 3.1 from the summer, but at a fraction of the cost and computational overhead — e.g., the GPU capacity needed to run the model in an inference.

It’s designed to offer top-tier performance and accessibility yet in a smaller package than prior foundation models.

Meta’s Llama 3.3 is offered under the Llama 3.3 Community License Agreement, which grants a non-exclusive, royalty-free license for use, reproduction, distribution, and modification of the model and its outputs. Developers integrating Llama 3.3 into products or services must include appropriate attribution, such as “Built with Llama,” and adhere to an Acceptable Use Policy that prohibits activities like generating harmful content, violating laws, or enabling cyberattacks. While the license is generally free, organizations with over 700 million monthly active users must obtain a commercial license directly from Meta.

A statement from the AI at Meta team underscores this vision: “Llama 3.3 delivers leading performance and quality across text-based use cases at a fraction of the inference cost.”

How much savings are we talkin’ about, really? Some back-of-the-envelope math:

Llama 3.1-405B requires between 243 GB and 1944 GB of GPU memory, according to the Substratus blog (for the open source cross cloud substrate). Meanwhile, the older Llama 2-70B requires between 42-168 GB of GPU memory, according to the same blog, though same have claimed as low as 4 GB, or as Exo Labs has shown, a few Mac computers with M4 chips and no discrete GPUs.

Therefore, if the GPU savings for lower-parameter models holds up in this case, those looking to deploy Meta’s most powerful open source Llama models can expect to save up to nearly 1940 GB worth of GPU memory, or potentially, 24 times reduced GPU load for a standard 80 GB Nvidia H100 GPU.

At an estimated $25,000 per H100 GPU, that’s up to $600,000 in up-front GPU cost savings, potentially — not to mention the continuous power costs.

A highly performant model in a small form factor

According to Meta AI on X, the Llama 3.3 model handedly outperforms the identically sized Llama 3.1-70B as well as Amazon’s new Nova Pro model in several benchmarks such as multilingual dialogue, reasoning, and other advanced natural language processing (NLP) tasks (Nova outperforms it in HumanEval coding tasks).

Llama 3.3 has been pretrained on 15 trillion tokens from “publicly available” data and fine-tuned on over 25 million synthetically generated examples, according to the information Meta provided in the “model card” posted on its website.

Leveraging 39.3 million GPU hours on H100-80GB hardware, the model’s development underscores Meta’s commitment to energy efficiency and sustainability.

Llama 3.3 leads in multilingual reasoning tasks with a 91.1% accuracy rate on MGSM, demonstrating its effectiveness in supporting languages such as German, French, Italian, Hindi, Portuguese, Spanish, and Thai, in addition to English.

Cost-effective and environmentally conscious

Llama 3.3 is specifically optimized for cost-effective inference, with token generation costs as low as $0.01 per million tokens.

This makes the model highly competitive against industry counterparts like GPT-4 and Claude 3.5, with greater affordability for developers seeking to deploy sophisticated AI solutions.

Meta has also emphasized the environmental responsibility of this release. Despite its intensive training process, the company leveraged renewable energy to offset greenhouse gas emissions, resulting in net-zero emissions for the training phase. Location-based emissions totaled 11,390 tons of CO2-equivalent, but Meta’s renewable energy initiatives ensured sustainability.

Advanced features and deployment options

The model introduces several enhancements, including a longer context window of 128k tokens (comparable to GPT-4o, about 400 pages of book text), making it suitable for long-form content generation and other advanced use cases.

Its architecture incorporates Grouped Query Attention (GQA), improving scalability and performance during inference.

Designed to align with user preferences for safety and helpfulness, Llama 3.3 uses reinforcement learning with human feedback (RLHF) and supervised fine-tuning (SFT). This alignment ensures robust refusals to inappropriate prompts and an assistant-like behavior optimized for real-world applications.

Llama 3.3 is already available for download through Meta, Hugging Face, GitHub, and other platforms, with integration options for researchers and developers. Meta is also offering resources like Llama Guard 3 and Prompt Guard to help users deploy the model safely and responsibly.

Không có file đính kèm.

Nguồn tham khảo

281

AI mở-nguồn mở OpenAI ChatGPT 2024-12-05 17:34:41

Mark Zuckerberg khen ngợi Llama AI, nhưng lại dùng GPT-4 để nâng cao Metamate

- Mark Zuckerberg khen ngợi mô hình AI Llama của Meta nhưng vẫn sử dụng GPT-4 từ OpenAI để cải thiện công cụ Metamate.
- Metamate là công cụ lập trình nội bộ của Meta, kết hợp giữa Llama và GPT-4, hỗ trợ lập trình viên và nhân viên Meta trong việc giải quyết các câu hỏi về mã.
- Người dùng cho rằng Metamate rất hữu ích và có thể truy xuất thông tin từ cả hai mô hình tùy thuộc vào loại truy vấn.
- Chan Zuckerberg Initiative, tổ chức từ thiện do Zuckerberg và vợ điều hành, cũng là khách hàng của OpenAI, phát triển công cụ genAI giáo dục dựa trên ChatGPT.
- Zuckerberg quảng bá Llama như một lựa chọn nguồn mở tốt, cạnh tranh với các mô hình khép kín từ OpenAI và Google.
- Llama không chỉ là một trong những mô hình lớn nhất thế giới mà còn có phiên bản gần nhất đã được huấn luyện trên hàng nghìn tỉ token và có lượng mã nguồn gấp 4 lần so với phiên bản trước.
- Metamate, ban đầu mang tên Code Compose, được người dùng đánh giá là hữu ích cho công việc kỹ thuật, nhưng chỉ giỏi ở các nhiệm vụ cơ bản, không đủ sức phục vụ các công việc kỹ thuật phức tạp.
- Sự xuất hiện của AI đã dẫn đến việc giảm bớt lao động tại Meta, với nhiều đợt cắt giảm nhân sự diễn ra trong năm qua.

📌 Mark Zuckerberg ca ngợi Llama AI nhưng lại dựa vào GPT-4 cho Metamate. Công cụ này hỗ trợ lập trình viên Meta nhưng cũng dẫn đến việc cắt giảm nhân sự. Các mô hình AI đang cạnh tranh gay gắt trong ngành công nghệ.

https://fortune.com/2024/12/03/meta-openai-gpt-4-llama-coding-tool/

Không có file đính kèm.

Nguồn tham khảo

206

AI mở-nguồn mở 2024-12-05 17:31:02

CEO Hugging Face cảnh báo về sự nguy hiểm của mô hình AI nguồn mở Trung Quốc

- Giám đốc điều hành Hugging Face, Clement Delangue, bày tỏ mối lo ngại về các mô hình AI nguồn mở của Trung Quốc, đặc biệt trong bối cảnh kiểm duyệt thông tin.
- Các mô hình AI từ Trung Quốc đã chứng tỏ khả năng vượt trội trong nhiều nhiệm vụ như lập trình và suy luận.
- Tuy nhiên, một số mô hình này bị chỉ trích vì không phản hồi đúng với các chủ đề nhạy cảm.
- Delangue nhấn mạnh rằng nếu các công ty phương Tây xây dựng trên nền tảng mô hình AI của Trung Quốc, có thể dẫn đến những hệ quả không mong muốn.
- Ông cho biết, các chatbot tạo ra từ mô hình Trung Quốc sẽ có cách phản ứng khác so với hệ thống phát triển ở Pháp hay Mỹ khi được hỏi về vụ việc nhạy cảm.
- Delangue cho rằng nếu Trung Quốc trở thành quốc gia hàng đầu về AI, họ có thể lan truyền một số khía cạnh văn hóa mà thế giới phương Tây không muốn thấy.
- Trước đó, ông đã khẳng định AI Trung Quốc đang nhanh chóng bắt kịp AI phương Tây nhờ vào phong trào nguồn mở.
- Ông lo ngại về sự tập trung mạnh mẽ của các mô hình AI hàng đầu xuất phát từ Trung Quốc, cho rằng đây là một phát triển khá mới.
- Hugging Face hiện là nền tảng lớn nhất thế giới cho các mô hình AI và là nơi nhiều công ty AI Trung Quốc giới thiệu các mô hình học sâu mới nhất.
- Mô hình Qwen2.5-72B-Instruct, phát triển bởi Alibaba, hiện là mô hình mặc định trên HuggingChat và không kiểm duyệt câu hỏi liên quan đến vụ Thiên An Môn.
- Trái lại, mô hình QwQ-32B từ gia đình Qwen của Alibaba đã kiểm duyệt câu hỏi về các cuộc biểu tình tại Thiên An Môn.
- DeepSeek, một mô hình AI Trung Quốc khác nổi tiếng với khả năng suy luận cũng bị chỉ trích vì kiểm duyệt các chủ đề nhạy cảm.
- Các công ty AI Trung Quốc phải đối mặt với áp lực từ chính phủ trong việc tuân thủ các giá trị xã hội chủ nghĩa cốt lõi và hệ thống kiểm duyệt rộng rãi.
- Delangue gần đây dự đoán Trung Quốc sẽ dẫn đầu trong cuộc đua AI toàn cầu vào năm 2025.

📌 Clement Delangue, giám đốc điều hành Hugging Face, lo ngại về việc các mô hình AI nguồn mở từ Trung Quốc có thể lan truyền các vấn đề văn hóa không mong muốn và nhấn mạnh tầm quan trọng của sự phân bổ AI toàn cầu.

https://techcrunch.com/2024/12/03/huggingface-ceo-has-concerns-about-chinese-open-source-ai-models/

Không có file đính kèm.

Nguồn tham khảo

129

AI ảnh-video-music-âm thanh AI mở-nguồn mở AI nhỏ 2024-12-04 07:18:51

SmolVLM của Hugging Face - mô hình AI thị giác chỉ cần 5GB RAM, mở ra kỷ nguyên AI chi phí thấp

- Hugging Face vừa công bố SmolVLM, mô hình ngôn ngữ thị giác mới tập trung vào hiệu quả và kích thước nhỏ gọn

- Mô hình được cấp phép nguồn mở Apache 2.0, cho phép sử dụng cả mục đích cá nhân và thương mại

- SmolVLM có 3 biến thể, mỗi biến thể có 2 tỷ tham số:
+ SmolVLM-Base: mô hình chuẩn
+ SmolVLM-Synthetic: phiên bản tinh chỉnh trên dữ liệu tổng hợp
+ SmolVLM Instruct: phiên bản hướng dẫn để xây dựng ứng dụng người dùng cuối

- Ưu điểm vượt trội về tài nguyên:
+ Chỉ yêu cầu 5,02GB GPU RAM
+ Thấp hơn nhiều so với Qwen2-VL 2B (13,7GB) và InternVL2 2B (10,52GB)
+ Có thể chạy trực tiếp trên laptop

- Khả năng xử lý:
+ Phân tích chuỗi văn bản và hình ảnh theo bất kỳ thứ tự nào
+ Mã hóa ảnh độ phân giải 384 x 384 pixel thành 81 token dữ liệu thị giác
+ Mã hóa lệnh kiểm tra và một hình ảnh chỉ với 1.200 token, so với 16.000 token của Qwen2-VL

- Mục tiêu hướng đến:
+ Doanh nghiệp nhỏ và người đam mê AI
+ Triển khai hệ thống cục bộ không cần nâng cấp lớn
+ Chạy suy luận văn bản và hình ảnh với chi phí thấp

📌 SmolVLM đại diện cho xu hướng thu nhỏ mô hình AI, chỉ yêu cầu 5,02GB GPU RAM, giảm 63% so với đối thủ Qwen2-VL. Mô hình nguồn mở này mở ra cơ hội tiếp cận AI cho doanh nghiệp nhỏ với chi phí hợp lý và hiệu quả cao.

https://www.gadgets360.com/ai/news/hugging-face-smolvlm-vision-language-model-open-source-efficiency-focus-introduced-7154979

Không có file đính kèm.

Nguồn tham khảo

185

AI mở-nguồn mở AI models 2024-11-30 00:09:33

Alibaba ra mắt mô hình AI lý luận mới QwQ-32B-Preview, cạnh tranh trực tiếp với OpenAI

- QwQ-32B-Preview là một mô hình AI lý luận mới được phát triển bởi đội ngũ Qwen của Alibaba, ra mắt vào ngày 27 tháng 11 năm 2024.
- Mô hình sở hữu 32.5 tỷ tham số, cho phép xử lý các văn bản dài lên đến khoảng 32.000 từ.
- Được thử nghiệm, QwQ-32B-Preview ghi điểm tốt hơn so với các mô hình lý luận o1-preview và o1-mini của OpenAI trong một số bài kiểm tra như AIME và MATH.
- AIME sử dụng các mô hình AI khác để đánh giá hiệu suất, trong khi MATH là tập hợp các bài toán từ vựng.
- QwQ-32B-Preview có khả năng giải quyết các câu đố logic và các bài toán toán học khá khó nhờ vào khả năng lý luận của nó.
- Mặc dù hiệu suất ấn tượng, mô hình cũng gặp một số vấn đề như chuyển ngôn ngữ không mong muốn, bị kẹt trong các vòng lặp và kém hiệu quả trong các tác vụ cần lý luận thường thức.
- QwQ-32B-Preview có điểm nổi bật là khả năng tự kiểm tra tính chính xác của thông tin, điều này giúp tránh được nhiều vấn đề mà các mô hình AI thông thường gặp phải, mặc dù thời gian xử lý có thể lâu hơn.
- Mô hình này có sẵn để tải xuống và sử dụng trên nền tảng phát triển AI Hugging Face, nhưng chỉ một số thành phần của nó được công khai, khiến việc tái tạo hoặc hiểu rõ cách hoạt động bên trong không khả thi.
- QwQ-32B-Preview rơi vào giữa mức độ mở, cho phép ứng dụng thương mại nhưng không hoàn toàn công khai các yếu tố chính của mô hình.
- Sự chú ý ngày càng tăng vào các mô hình lý luận xảy ra trong bối cảnh nhiều lý thuyết về quy luật mở rộng đang bị xem xét lại, với các báo cáo cho thấy rằng sự cải tiến hiệu suất ở một số phòng lab AI lớn đang chững lại.
- Các tổ chức lớn ngoài OpenAI và các công ty Trung Quốc như Google đã bắt đầu mở rộng nỗ lực phát triển các mô hình lý luận và công nghệ tính toán thêm vào thời điểm kiểm tra.

📌 QwQ-32B-Preview của Alibaba, với 32.5 tỷ tham số, vượt trội hơn OpenAI ở nhiều bài kiểm tra, mặc dù vẫn gặp một số hạn chế trong lý luận thông thường. Mô hình có sẵn trên Hugging Face với giấy phép Apache 2.0 cho ứng dụng thương mại.

https://techcrunch.com/2024/11/27/alibaba-releases-an-open-challenger-to-openais-o1-reasoning-model/

Không có file đính kèm.

Nguồn tham khảo

156

AI nhỏ AI mở-nguồn mở 2024-11-28 01:18:27

AI2 vừa ra mắt OLMo 2, mô hình ngôn ngữ mới mở với khả năng cạnh tranh với Llama

- Ai2, tổ chức nghiên cứu AI phi lợi nhuận do Paul Allen sáng lập, vừa ra mắt OLMo 2, dòng mô hình ngôn ngữ mới.
- OLMo là viết tắt của "Open Language Model", bao gồm 2 mô hình là OLMo 7B (7 tỷ tham số) và OLMo 13B (13 tỷ tham số).
- OLMo 2 đáp ứng định nghĩa nguồn mở của Open Source Initiative, với dữ liệu huấn luyện và mã nguồn có sẵn công khai.
- Ai2 sử dụng bộ dữ liệu gồm 5 nghìn tỷ token để huấn luyện mô hình, bao gồm websites, tài liệu học thuật và diễn đàn thảo luận.
- Mô hình có khả năng thực hiện nhiều nhiệm vụ dựa trên văn bản, như trả lời câu hỏi, tóm tắt tài liệu và viết mã.
- OLMo 2 cho thấy sự cải thiện rõ rệt về hiệu suất so với các mô hình trước đó và vượt trội hơn Llama 3.1 với 8 tỷ tham số.
- Các mô hình OLMo 2 có thể tải xuống miễn phí từ trang web của Ai2, dưới giấy phép Apache 2.0 cho phép sử dụng thương mại.
- Có tranh luận về độ an toàn của các mô hình mở, nhưng Ai2 tin rằng lợi ích vượt xa rủi ro.
- Ai2 nhấn mạnh rằng việc chia sẻ dữ liệu và mô hình cách công khai sẽ thúc đẩy sự phát triển công nghệ, mang lại mô hình đạo đức hơn.

📌 OLMo 2 của Ai2 với 7 và 13 tỷ tham số ra mắt cạnh tranh với Llama 3.1. Với 5 nghìn tỷ token, OLMo 2 cho thấy hiệu suất vượt trội và đáp ứng tiêu chuẩn nguồn mở, mở đường cho tiến bộ công nghệ.

https://techcrunch.com/2024/11/26/ai2-releases-new-language-models-competitive-with-metas-llama/

Không có file đính kèm.

Nguồn tham khảo

152

AI mở-nguồn mở AI tools 2024-11-23 09:34:23

Ai2 phát hành Tülu 3 - công cụ nguồn mở giúp ai cũng có thể tự huấn luyện mô hình AI

- Ai2 (trước đây là Allen Institute for AI) vừa ra mắt Tülu 3, một framework huấn luyện sau hoàn toàn nguồn mở dành cho các mô hình ngôn ngữ lớn (LLM)

- Quá trình huấn luyện sau đang được chứng minh là bước quan trọng tạo ra giá trị thực sự cho các mô hình AI:
+ Biến mô hình từ mạng lưới "biết tuốt" thành công cụ có ích thực tế
+ Giúp kiểm soát đầu ra của mô hình, tránh các nội dung độc hại
+ Các công ty lớn giữ bí mật quy trình này vì đây là lợi thế cạnh tranh

- Tülu 3 cung cấp nhiều cải tiến so với phiên bản trước:
+ Cho phép lựa chọn chủ đề trọng tâm cho mô hình
+ Tích hợp quy trình xử lý dữ liệu, học tăng cường
+ Tinh chỉnh các tham số và quy trình huấn luyện
+ Đạt điểm số ngang bằng các mô hình nguồn mở tiên tiến nhất

- Lợi ích của Tülu 3:
+ Giúp các tổ chức tự xây dựng mô hình AI mà không phụ thuộc công ty lớn
+ Phù hợp với các công ty y tế, nghiên cứu cần bảo mật dữ liệu
+ Tiết kiệm chi phí thuê bên thứ ba để tùy chỉnh mô hình

- Ai2 đang sử dụng Tülu 3 để phát triển một mô hình dựa trên OLMo, hứa hẹn mang lại nhiều cải tiến hơn nữa

📌 Tülu 3 là bước đột phá giúp dân chủ hóa việc huấn luyện mô hình AI, cho phép các tổ chức tự phát triển mô hình mà không cần dựa vào các "gã khổng lồ" công nghệ. Framework này đặc biệt phù hợp với các đơn vị cần bảo mật dữ liệu cao như y tế và nghiên cứu.

https://techcrunch.com/2024/11/21/ai2s-open-source-tulu-3-lets-anyone-play-the-ai-post-training-game/

Không có file đính kèm.

Nguồn tham khảo

175

AI models AI mở-nguồn mở AI so sánh 2024-11-23 09:25:17

LLaVA-o1 của Trung Quốc thách thức OpenAI o1 với khả năng suy luận vượt trội

- Các nhà nghiên cứu Trung Quốc vừa công bố mô hình LLaVA-o1, một mô hình nguồn mở cạnh tranh với OpenAI o1, tập trung vào việc cải thiện khả năng suy luận của mô hình ngôn ngữ thị giác (VLM).

- Mô hình này giải quyết các hạn chế của VLM truyền thống bằng cách:
+ Thực hiện suy luận có cấu trúc qua 4 giai đoạn: tóm tắt, chú thích, suy luận và kết luận
+ Chỉ hiển thị giai đoạn kết luận cho người dùng
+ Áp dụng kỹ thuật tìm kiếm theo cấp độ để tạo và chọn lọc kết quả tối ưu ở mỗi giai đoạn

- Quá trình đào tạo bao gồm:
+ Sử dụng bộ dữ liệu 100.000 cặp hình ảnh-câu hỏi-câu trả lời
+ GPT-4o tạo quy trình suy luận chi tiết 4 giai đoạn
+ Fine-tune trên nền tảng Llama-3.2-11B-Vision-Instruct

- Kết quả đánh giá:
+ Cải thiện 6,9% điểm benchmark so với mô hình Llama cơ bản
+ Vượt trội hơn các mô hình nguồn mở khác có cùng kích thước hoặc lớn hơn
+ Hiệu suất cao hơn một số mô hình đóng như GPT-4-o-mini và Gemini 1.5 Pro

- Đóng góp quan trọng:
+ Thiết lập tiêu chuẩn mới cho suy luận đa phương thức trong VLM
+ Mở đường cho nghiên cứu về suy luận có cấu trúc
+ Tiềm năng mở rộng với bộ xác minh bên ngoài và học tăng cường

📌 LLaVA-o1 đạt bước tiến vượt bậc với khả năng suy luận 4 giai đoạn và cải thiện 6,9% hiệu suất so với Llama cơ bản. Mô hình nguồn mở này thậm chí vượt qua các đối thủ lớn như GPT-4-o-mini và Gemini 1.5 Pro, mở ra hướng phát triển mới cho công nghệ VLM.

https://venturebeat.com/ai/chinese-researchers-unveil-llava-o1-to-challenge-openais-o1-model/

Không có file đính kèm.

Nguồn tham khảo

134

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-11-22 00:43:56

Whisper-NER - mô hình AI nguồn mở tự động ẩn thông tin riêng tư khi chuyển đổi âm thanh thành văn bản

- Công ty khởi nghiệp aiOla của Israel vừa ra mắt mô hình Whisper-NER, được xây dựng trên nền tảng mô hình nguồn mở Whisper của OpenAI

- Whisper-NER tích hợp hai công nghệ:
+ Nhận dạng giọng nói tự động (ASR)
+ Nhận dạng thực thể có tên (NER)

- Tính năng chính:
+ Tự động nhận diện và che giấu thông tin nhạy cảm như tên, số điện thoại, địa chỉ trong quá trình chuyển đổi
+ Xử lý đồng thời việc chuyển đổi âm thanh và bảo vệ thông tin riêng tư
+ Hỗ trợ học không cần mẫu (zero-shot learning)
+ Có thể tùy chỉnh để đánh dấu thay vì che giấu thông tin

- Mô hình được phát hành dưới giấy phép MIT, cho phép:
+ Sử dụng miễn phí
+ Tùy chỉnh và triển khai
+ Áp dụng cho mục đích thương mại

- Phương pháp huấn luyện độc đáo:
+ Sử dụng tập dữ liệu tổng hợp
+ Kết hợp dữ liệu giọng nói và văn bản NER
+ Xử lý đồng thời hai tác vụ trong một khối

- Ứng dụng thực tế:
+ Giám sát tuân thủ
+ Quản lý kho hàng
+ Đảm bảo chất lượng
+ Đặc biệt phù hợp với ngành y tế và luật

📌 aiOla phát hành mô hình AI nguồn mở Whisper-NER tích hợp khả năng chuyển đổi âm thanh và bảo vệ dữ liệu nhạy cảm trong cùng một quy trình. Mô hình được cấp phép MIT, hỗ trợ zero-shot learning và đặc biệt phù hợp với các ngành có yêu cầu bảo mật cao như y tế và luật.

https://venturebeat.com/ai/aiola-unveils-open-source-ai-audio-transcription-model-that-obscures-sensitive-info-in-realtime/

Không có file đính kèm.

Nguồn tham khảo

170

AI nghiên cứu AI mở-nguồn mở 2024-11-22 00:09:42

AI nguồn mở OpenScholar đánh bại GPT-4o, mở ra kỷ nguyên mới cho nghiên cứu khoa học

- OpenScholar là hệ thống AI do viện Allen Institute for AI và đại học Washington phát triển, giúp các nhà nghiên cứu tiếp cận, đánh giá và tổng hợp tài liệu khoa học hiệu quả

- Hệ thống sử dụng mô hình tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, kết nối với kho dữ liệu hơn 45 triệu bài báo khoa học nguồn mở

- OpenScholar vượt trội hơn GPT-4o về độ chính xác và trích dẫn nguồn, trong khi GPT-4o tạo ra trích dẫn sai trong hơn 90% trường hợp với các câu hỏi y sinh

- Hệ thống hoạt động thông qua vòng lặp phản hồi tự động, liên tục cải thiện kết quả đầu ra và tích hợp thông tin bổ sung một cách thích ứng

- Mô hình 8 tỷ tham số của OpenScholar có chi phí vận hành thấp hơn 100 lần so với PaperQA2 dựa trên GPT-4o

- Các chuyên gia đánh giá câu trả lời của OpenScholar tốt hơn so với câu trả lời viết bởi con người trong 70% trường hợp

- OpenScholar công bố toàn bộ mã nguồn, mô hình, dữ liệu và công cụ, khẳng định tính minh bạch sẽ thúc đẩy tiến bộ nhanh hơn

- Hạn chế chính của hệ thống là chỉ có thể truy cập các bài báo nguồn mở, chưa bao gồm các nghiên cứu có phí truy cập

📌 OpenScholar là AI nguồn mở đầu tiên vượt trội GPT-4o trong nghiên cứu khoa học, xử lý 45 triệu bài báo với độ chính xác 70% cao hơn chuyên gia, chi phí thấp hơn 100 lần, mở ra kỷ nguyên mới cho việc tổng hợp tri thức khoa học.

https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/

Không có file đính kèm.

Nguồn tham khảo

143

AI models AI mở-nguồn mở 2024-11-21 07:47:26

DeepSeek gây chấn động với R1-Lite-Preview: Mô hình lập luận AI vượt mặt OpenAI o1

• DeepSeek, công ty con AI của quỹ đầu cơ High-Flyer Capital Management, đã ra mắt mô hình ngôn ngữ lớn (LLM) tập trung vào lập luận mới nhất là R1-Lite-Preview.

• R1-Lite-Preview hiện chỉ có sẵn thông qua chatbot AI dựa trên web DeepSeek Chat.

• Mô hình mới này đã gây ấn tượng bằng cách cung cấp hiệu suất gần bằng và trong một số trường hợp vượt quá mô hình o1-preview của OpenAI.

• R1-Lite-Preview thể hiện khả năng lập luận "chuỗi suy luận", cho phép người dùng theo dõi quá trình suy luận của nó.

• Mô hình này có khả năng trả lời chính xác các câu hỏi đánh đố đã gây khó khăn cho các mô hình AI mạnh mẽ khác như GPT-4 và Claude.

• DeepSeek tuyên bố R1-Lite-Preview vượt trội hơn hiệu suất cấp o1-preview của OpenAI trên các điểm chuẩn như AIME và MATH.

• Công ty đã công bố dữ liệu mở rộng, cho thấy cải thiện độ chính xác ổn định khi mô hình được cung cấp nhiều thời gian hoặc "token suy nghĩ" hơn để giải quyết vấn đề.

• R1-Lite-Preview đã thể hiện khả năng cạnh tranh trên các điểm chuẩn quan trọng như GPQA và Codeforces.

• Tính minh bạch trong quá trình lập luận của mô hình là một điểm khác biệt so với nhiều hệ thống AI độc quyền.

• DeepSeek chưa công bố mã đầy đủ để phân tích hoặc đánh giá độc lập của bên thứ ba.

• Công ty cũng chưa công bố bài đăng blog hoặc bài báo kỹ thuật giải thích cách R1-Lite-Preview được đào tạo hoặc kiến trúc.

• R1-Lite-Preview hiện có thể truy cập thông qua DeepSeek Chat tại chat.deepseek.com, với chế độ "Deep Think" nâng cao có giới hạn 50 tin nhắn mỗi ngày.

• DeepSeek có kế hoạch phát hành các phiên bản nguồn mở của các mô hình dòng R1 và API liên quan trong tương lai.

• Công ty có lịch sử hỗ trợ cộng đồng AI nguồn mở, với các phiên bản trước như DeepSeek-V2.5 được đánh giá cao.

• R1-Lite-Preview xây dựng dựa trên thành công của các mô hình trước đó, tập trung vào lập luận minh bạch và khả năng mở rộng.

📌 DeepSeek đã ra mắt R1-Lite-Preview, một mô hình lập luận AI mạnh mẽ vượt trội hơn OpenAI o1 trong một số trường hợp. Mô hình này thể hiện khả năng lập luận "chuỗi suy luận" minh bạch và đạt hiệu suất cao trên các điểm chuẩn quan trọng. DeepSeek cam kết phát triển AI nguồn mở và có kế hoạch phát hành các phiên bản mã nguồn mở trong tương lai.

https://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/

Không có file đính kèm.

Nguồn tham khảo

163

AI models AI mở-nguồn mở 2024-11-19 07:29:51

Mistral AI thách thức ChatGPT: Ra mắt Pixtral Large 124 tỷ tham số và Le Chat với khả năng tạo ảnh

- Mistral AI, startup Pháp vừa công bố mô hình nền tảng mới Pixtral Large với 124 tỷ tham số, bao gồm bộ giải mã 123 tỷ tham số và bộ mã hóa thị giác 1 tỷ tham số

- Pixtral Large có khả năng:
* Xử lý 30 ảnh độ phân giải cao mỗi lần nhập liệu
* Đọc văn bản tương đương 300 trang sách
* Cửa sổ ngữ cảnh 128.000 token
* Nhận dạng ký tự quang học đa ngôn ngữ
* Phân tích biểu đồ và tài liệu

- Le Chat được nâng cấp với các tính năng mới:
* Tìm kiếm web kèm trích dẫn nguồn
* Canvas tương tác để tạo tài liệu và thiết kế
* Phân tích tài liệu PDF phức tạp
* Tạo ảnh thông qua hợp tác với Black Forest Labs
* Agent tự động hóa các tác vụ lặp lại

- Mô hình được cung cấp miễn phí trên Hugging Face nhưng:
* Chỉ dành cho mục đích nghiên cứu phi thương mại
* Sử dụng thương mại cần giấy phép riêng từ Mistral

- Thách thức hiện tại của Mistral:
* Thiếu tính năng âm thanh và giọng nói như ChatGPT
* Mức độ sử dụng trong doanh nghiệp còn thấp hơn OpenAI, Anthropic
* Đang định vị là giải pháp AI độc lập của châu Âu

📌 Mistral AI đang khẳng định vị thế với Pixtral Large 124 tỷ tham số và Le Chat được nâng cấp toàn diện. Startup này đang trở thành niềm hy vọng của châu Âu trong việc phát triển AI độc lập với Mỹ, dù vẫn cần cải thiện các tính năng âm thanh và tăng độ phổ biến trong doanh nghiệp.

https://venturebeat.com/ai/mistral-unleashes-pixtral-large-and-upgrades-le-chat-into-full-on-chatgpt-competitor/

Không có file đính kèm.

Nguồn tham khảo

122

AI mở-nguồn mở AI models 2024-11-19 07:13:39

Mô hình AI tổng hợp f1 đánh bại GPT-4 và Claude 3.5 trong mọi bài kiểm tra khó

- Fireworks AI vừa ra mắt mô hình AI tổng hợp f1, được thiết kế đặc biệt cho các tác vụ suy luận phức tạp

- f1 tích hợp nhiều mô hình nguồn mở ở tầng suy luận, giúp cải thiện hiệu suất trong các lĩnh vực:
+ Lập trình
+ Trò chuyện
+ Giải quyết vấn đề toán học

- Điểm khác biệt của f1:
+ Không phụ thuộc vào một hệ thống suy luận duy nhất
+ Kết hợp ưu điểm của nhiều mô hình chuyên biệt
+ Cung cấp giao diện nhắc lệnh đơn giản cho nhà phát triển

- Fireworks AI cung cấp 2 phiên bản:
+ f1 tiêu chuẩn
+ f1-mini (phiên bản nhẹ hơn)

- Cả hai phiên bản đều có sẵn để dùng thử trên Fireworks AI Playground

- Ưu điểm của kiến trúc tổng hợp:
+ Chia nhỏ tác vụ phức tạp thành các tác vụ con
+ Mỗi tác vụ con được xử lý bởi mô hình phù hợp nhất
+ Tối ưu hiệu suất từng bước
+ Đơn giản hóa việc sử dụng AI phức tạp

- Kết quả kiểm tra cho thấy f1 vượt trội hơn GPT-4 và Claude 3.5 Sonnet trong:
+ Lập trình khó
+ Trò chuyện
+ Các bài toán phức tạp

- Nhà phát triển có thể:
+ Đăng ký sớm để truy cập API của f1
+ Dùng thử miễn phí trên Fireworks AI Playground

📌 Fireworks AI đã tạo bước đột phá với mô hình f1 tích hợp nhiều mô hình nguồn mở, vượt trội hơn GPT-4 và Claude 3.5 trong mọi bài kiểm tra. f1 đơn giản hóa việc sử dụng AI phức tạp thông qua giao diện nhắc lệnh thống nhất, mở ra tương lai cho các ứng dụng AI linh hoạt và hiệu quả hơn.

https://www.marktechpost.com/2024/11/18/fireworks-ai-releases-f1-a-compound-ai-model-specialized-in-complex-reasoning-that-beats-gpt-4o-and-claude-3-5-sonnet-across-hard-coding-chat-and-math-benchmarks/

Không có file đính kèm.

Nguồn tham khảo

159

AI tools AI mở-nguồn mở 2024-11-14 07:24:28

Microsoft tung ra Magentic-One: Đội quân 5 agent AI có thể tự lướt web và lập trình

- Microsoft chính thức tham gia cuộc đua agent AI với việc ra mắt hệ thống Magentic-One, một bước tiến xa hơn so với chatbot thông thường

- Magentic-One được thiết kế như một "hệ thống đa agent tổng quát", nhắm đến đối tượng người dùng doanh nghiệp quen thuộc với các sản phẩm văn phòng của Microsoft

- Hệ thống bao gồm 5 agent chính:
+ Orchestrator: Agent chỉ huy, lập kế hoạch và điều phối toàn bộ dự án
+ WebSurfer: Agent lướt web
+ FileSurfer: Agent xử lý tệp
+ Coder: Agent viết mã
+ ComputerTerminal: Agent điều khiển máy tính

- Microsoft phát hành Magentic-One dưới dạng dự án nguồn mở trên Github để khuyến khích cộng đồng phát triển ứng dụng

- Điểm khác biệt của Magentic-One so với các hệ thống agent AI khác:
+ Tập trung vào quy trình công việc tổng quát thay vì chỉ một số tác vụ hẹp
+ Có khả năng hoàn thành nhiều tác vụ đa dạng trong các tình huống hàng ngày
+ Sử dụng agent chỉ huy Orchestrator để điều phối và xử lý vấn đề

- Thách thức hiện tại của công nghệ agent AI:
+ Các mô hình AI cơ bản vẫn gặp khó khăn trong việc đưa ra phản hồi nhất quán
+ Độ chính xác của hệ thống agent tốt nhất hiện chỉ đạt khoảng 50% so với con người
+ Cần nhiều sự hỗ trợ từ con người để hoàn thành các yêu cầu phức tạp

📌 Microsoft đã gia nhập cuộc đua agent AI với Magentic-One - hệ thống 5 agent do Orchestrator điều phối. Dù độ chính xác hiện chỉ đạt 50% so với con người, đây là bước tiến quan trọng trong việc phát triển AI có khả năng tự động hóa các tác vụ phức tạp.

https://www.tomsguide.com/ai/microsoft-unveils-magentic-one-an-ai-agent-that-can-browse-the-web-and-write-code

Không có file đính kèm.

Nguồn tham khảo

135

AI models AI mở-nguồn mở 2024-11-13 08:00:35

Qwen2.5-Coder - trợ lý lập trình AI miễn phí với hiệu suất ngang tầm GPT-4, hỗ trợ 92 ngôn ngữ lập trình

- Alibaba Cloud vừa phát hành Qwen2.5-Coder, trợ lý lập trình AI đã nhanh chóng trở thành demo phổ biến thứ 2 trên Hugging Face Spaces

- Mô hình được phát hành với 6 biến thể, từ 0,5 tỷ đến 32 tỷ tham số, phù hợp với nhiều nhu cầu tính toán khác nhau

- Qwen2.5-Coder-32B-Instruct đạt điểm ấn tượng:
+ 92,7% trên HumanEval
+ 90,2% trên MBPP
+ 31,4% độ chính xác trên LiveCodeBench

- Hỗ trợ 92 ngôn ngữ lập trình từ phổ biến đến chuyên biệt như Haskell và Racket

- Các tính năng nổi bật:
+ Hoàn thiện code cấp repository
+ Hiểu ngữ cảnh qua nhiều file
+ Tạo ứng dụng trực quan như website
+ Gỡ lỗi code

- Sử dụng giấy phép Apache 2.0 cho phép tích hợp miễn phí vào sản phẩm thương mại

- Thành tựu này của Alibaba Cloud đáng chú ý trong bối cảnh Trung Quốc đang bị Mỹ hạn chế xuất khẩu chip tiên tiến

- Tác động đến thị trường:
+ Thách thức mô hình kinh doanh dựa trên thuê bao của OpenAI và Anthropic
+ Giảm chi phí phát triển phần mềm cho doanh nghiệp
+ Tăng khả năng tiếp cận AI cho các công ty nhỏ và thị trường mới nổi

📌 Qwen2.5-Coder của Alibaba Cloud là bước đột phá trong AI lập trình với hiệu suất vượt trội (92,7% trên HumanEval), hỗ trợ 92 ngôn ngữ và hoàn toàn miễn phí. Mô hình nguồn mở này sẽ định hình lại cách tiếp cận AI trong phát triển phần mềm doanh nghiệp toàn cầu.

https://venturebeat.com/ai/alibaba-new-ai-can-code-in-92-languages-and-its-completely-free/

Không có file đính kèm.

Nguồn tham khảo

178

AI mở-nguồn mở 2024-11-08 07:30:37

Vì sao AI nguồn mở là chìa khóa cho tương lai công nghệ toàn cầu?

- Đổi mới sáng tạo nguồn mở đóng vai trò then chốt trong làn sóng AI, với các công nghệ nền tảng như transformer của Google và các framework TensorFlow, PyTorch được chia sẻ rộng rãi

- Các lo ngại chính về AI nguồn mở bao gồm:
+ Việc đối thủ cạnh tranh của Mỹ có thể tận dụng: Trung Quốc đã điều chỉnh mô hình Llama 2 của Meta cho mục đích quân sự
+ Nguy cơ khủng bố và tội phạm lợi dụng bằng cách gỡ bỏ các biện pháp bảo vệ
+ Anthropic cảnh báo về rủi ro độc đáo khi mô hình có thể được điều chỉnh cho mục đích xấu

- Lợi ích của phần mềm nguồn mở đã được chứng minh:
+ Là nền tảng của ngành công nghệ và thiết bị hàng tỷ người dùng
+ World Wide Web dựa trên mã nguồn mở do Tim Berners-Lee công bố
+ Thuật toán nén Ogg Vorbis được Spotify sử dụng phục vụ hàng triệu người

- Mô hình đóng vẫn cần thiết cho các ứng dụng nhạy cảm, nhưng mô hình mở hoặc bán mở đóng vai trò quan trọng:
+ Cho phép minh bạch và học hỏi từ kỹ thuật
+ Tạo cơ hội phát triển và xây dựng trên nền tảng có sẵn

- Meta đang hạn chế quyền truy cập vào các mô hình của mình (giới hạn ở ứng dụng dưới 700 triệu người dùng hàng tháng) nhưng có thể mở rộng hơn để thu hút các nhà phát triển

📌 AI nguồn mở thúc đẩy đổi mới sáng tạo toàn cầu dù tồn tại rủi ro. Chính phủ cần áp dụng quy định an toàn đồng bộ thay vì hạn chế nghiên cứu. Các mô hình mở và bán mở sẽ là chìa khóa cho sự phát triển công nghệ trong tương lai, bên cạnh các mô hình đóng cho ứng dụng nhạy cảm.

https://www.economist.com/leaders/2024/11/07/why-open-source-ai-models-are-good-for-the-world

Không có file đính kèm.

Nguồn tham khảo

134

AI robotics-auto-agents AI mở-nguồn mở 2024-11-08 06:32:56

Microsoft phát hành nền tảng AI đa tác tử nguồn mở Magentic-One

- Microsoft Research vừa phát hành Magentic-One, một hệ thống AI đa tác tử tổng quát có khả năng giải quyết các tác vụ mở trong nhiều lĩnh vực

- Magentic-One được phát hành dưới dạng công cụ nguồn mở trên nền tảng Microsoft AutoGen, nhằm hỗ trợ các nhà phát triển và nghiên cứu tạo ra ứng dụng tự động xử lý các tác vụ phức tạp

- Kiến trúc đa tác tử của Magentic-One bao gồm:
+ Tác tử điều phối chính
+ WebSurfer cho điều hướng web
+ FileSurfer cho quản lý file
+ Coder cho lập trình
+ ComputerTerminal cho thực thi mã

- Hệ thống có tính linh hoạt và mở rộng cao:
+ Cho phép thêm/bớt tác tử mà không ảnh hưởng cấu trúc cốt lõi
+ Hỗ trợ tích hợp các mô hình ngôn ngữ lớn (LLM) và nhỏ (SLM)
+ Đã thử nghiệm với GPT-4 và OpenAI o1-preview

- Microsoft giới thiệu AutoGenBench để đánh giá hiệu suất trên các benchmark:
+ GAIA
+ AssistantBench
+ WebArena

- Các framework đa tác tử nguồn mở khác cũng được phát hành gần đây:
+ OpenAI với Swarm
+ IBM với Bee Agent Framework (phiên bản alpha)
+ Bee Agent tương thích với IBM Granite và Llama 3.2

📌 Magentic-One là nền tảng AI đa tác tử nguồn mở của Microsoft với kiến trúc module linh hoạt, cho phép xử lý đa dạng tác vụ từ duyệt web đến lập trình. Hệ thống đạt hiệu suất cạnh tranh trên các benchmark quan trọng và hỗ trợ tích hợp nhiều mô hình ngôn ngữ khác nhau.

https://analyticsindiamag.com/ai-news-updates/microsoft-launches-magentic-one-an-open-source-multi-agent-ai-platform/

Không có file đính kèm.

Nguồn tham khảo

141

AI mở-nguồn mở 2024-11-05 07:29:43

IBM ra mắt Granite 3.0 - dòng mô hình AI nguồn mở dành cho doanh nghiệp

- IBM vừa công bố Granite 3.0 - dòng mô hình AI nguồn mở dành cho doanh nghiệp, được cấp phép theo Apache 2.0

- Đặc điểm nổi bật của Granite 3.0:
+ Hoạt động hiệu quả trên thiết bị có tài nguyên hạn chế
+ Đa dạng kích thước mô hình phù hợp nhiều cấu hình phần cứng
+ Thực hiện nhiều tác vụ: tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, phân loại, tóm tắt, trích xuất thực thể

- IBM giới thiệu Instruct Lab song song với Granite 3.0:
+ Tích hợp tri thức đặc thù của doanh nghiệp vào mô hình AI mà không cần fine-tuning truyền thống
+ Giảm chi phí đáng kể trong quá trình tùy chỉnh mô hình
+ Cải thiện độ chính xác và phù hợp trong ứng dụng thực tế

- Công nghệ mixture of experts trong Granite 3.0:
+ Tối ưu hiệu năng bằng cách chỉ kích hoạt một số tham số nhất định
+ Phù hợp môi trường yêu cầu độ trễ thấp
+ Được huấn luyện trên tập dữ liệu đa dạng và quy mô lớn

- Granite 3.0 thể hiện hiệu năng vượt trội trong:
+ Ứng dụng an ninh mạng
+ Kịch bản gọi công cụ
+ Tác vụ đặc thù doanh nghiệp

- IBM tích cực kết hợp AI với điện toán lượng tử:
+ Đầu tư nghiên cứu để mở rộng khả năng tính toán
+ Tích hợp framework Agent vào nền tảng Watson
+ Cam kết phát triển giải pháp nguồn mở qua thương vụ mua lại Red Hat

📌 Granite 3.0 của IBM mang đến cuộc cách mạng AI nguồn mở cho doanh nghiệp với khả năng hoạt động trên thiết bị tài nguyên thấp. Instruct Lab cho phép tích hợp tri thức đặc thù mà không cần fine-tuning, tiết kiệm chi phí đáng kể. Mô hình thể hiện hiệu năng vượt trội trong an ninh mạng và tác vụ doanh nghiệp.

https://www.geeky-gadgets.com/ibm-granite-3-ai-models/

Không có file đính kèm.

Nguồn tham khảo

140

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-11-05 07:07:04

Omnigen - mô hình AI nguồn mở mới cho phép chỉnh sửa ảnh qua trò chuyện

• Các nhà nghiên cứu tại Beijing Academy of Artificial Intelligence vừa phát hành Omnigen - mô hình AI nguồn mở tích hợp nhiều tính năng xử lý ảnh trong một hệ thống duy nhất

• Omnigen sử dụng 2 thành phần chính: Variational Autoencoder để phân tích cấu trúc ảnh và transformer model để xử lý đa dạng đầu vào

• Mô hình được huấn luyện trên tập dữ liệu 1 tỷ ảnh, có khả năng:
- Tạo ảnh từ văn bản
- Chỉnh sửa ảnh phức tạp
- Tô vẽ nội dung
- Điều chỉnh depth map

• Tích hợp Microsoft Phi-3 LLM giúp Omnigen hiểu ngữ cảnh và tương tác qua hội thoại tự nhiên như ChatGPT

• Người dùng có thể:
- Chạy miễn phí trên Hugging Face
- Cài đặt locally với yêu cầu tối thiểu 12GB VRAM
- Tích hợp vào ComfyUI thông qua node riêng

• Ưu điểm nổi bật:
- Đơn giản hóa quy trình chỉnh sửa ảnh phức tạp
- Hiểu và thực hiện lệnh qua ngôn ngữ tự nhiên
- Không cần kiến thức chuyên sâu về công cụ chỉnh sửa

• Hạn chế hiện tại:
- Tốc độ xử lý chậm hơn SD 3.5 và Flux
- Chất lượng ảnh chưa vượt trội
- Chỉ tương thích với card Nvidia

📌 Omnigen mở ra hướng đi mới cho công nghệ xử lý ảnh AI với khả năng tương tác qua hội thoại tự nhiên. Dù chưa vượt trội về chất lượng ảnh nhưng mô hình đã đơn giản hóa quy trình chỉnh sửa phức tạp, phù hợp cho cả người mới bắt đầu lẫn chuyên gia AI.

https://decrypt.co/290075/omnigen-open-source-ai-model-images-art

Không có file đính kèm.

Nguồn tham khảo

143

AI mở-nguồn mở AI edge 2024-11-04 06:20:28

AMD giới thiệu OLMo - dòng mô hình ngôn ngữ lớn 1 tỷ tham số đầu tiên hoàn toàn nguồn mở

• AMD vừa công bố OLMo, dòng mô hình ngôn ngữ lớn (LLM) 1 tỷ tham số đầu tiên được công ty phát triển và đào tạo nội bộ

• OLMo được đào tạo trên hàng nghìn tỷ token sử dụng cụm GPU Instinct MI250 của AMD

• Đây là LLM thứ hai AMD tự phát triển, sau mô hình nhỏ AMD-135M ra mắt tháng 9/2024

• OLMo dựa trên mô hình cùng tên do AI2 (trước đây là Viện Allen về Trí tuệ nhân tạo) phát triển ban đầu

• AMD OLMo có 3 biến thể:
- OLMo 1B: Được tiền đào tạo trên 1,3 nghìn tỷ token từ tập dữ liệu Dolma v1.7
- OLMo 1B SFT: Được tinh chỉnh có giám sát trên các bộ dữ liệu Tulu V2, OpenHermes-2.5, WebInstructSub và Code-Feedback
- OLMo 1B SFT DPO: Được tinh chỉnh thêm để phản ánh tốt hơn sở thích của con người thông qua tối ưu hóa ưu tiên trực tiếp

• Các mô hình này sử dụng kiến trúc transformer chỉ giải mã, phù hợp cho ứng dụng chatbot

• So với các mô hình nguồn mở cùng kích thước:
- OLMo 1B đạt độ chính xác trung bình 48,77% trên các tác vụ suy luận tổng quát, tương đương OLMo-0724-hf (49,3%) nhưng với chi phí đào tạo chỉ bằng một nửa
- Cải thiện độ chính xác trên ARC-Easy (+6,36%), ARC-Challenge (+1,02%) và SciQ (+0,50%)

• So với các mô hình cơ sở được tinh chỉnh theo hướng dẫn:
- OLMo 1B SFT cải thiện đáng kể độ chính xác trên MMLU (+5,09%) và GSM8k (+15,32%)
- Hiệu suất trên GSM8k (18,2%) vượt trội so với mô hình cơ sở tốt nhất tiếp theo (TinyLlama-1.1B-Chat-v1.0 ở mức 2,81%)

• AMD mở mã nguồn toàn bộ dữ liệu, trọng số, công thức đào tạo và mã của OLMo nhằm thúc đẩy sự đổi mới trong cộng đồng

• Động thái này cũng nhằm quảng bá sức mạnh của bộ xử lý AMD so với các đối thủ như Nvidia và Intel trong lĩnh vực AI

📌 AMD ra mắt OLMo - dòng LLM 1 tỷ tham số nguồn mở đầu tiên, đạt hiệu suất vượt trội so với các mô hình cùng phân khúc trên nhiều tiêu chuẩn đánh giá. Với 3 biến thể và quá trình đào tạo 3 giai đoạn, OLMo thể hiện khả năng suy luận và tuân theo hướng dẫn tốt hơn, đồng thời quảng bá sức mạnh GPU Instinct của AMD trong lĩnh vực AI.

https://thelettertwo.com/2024/11/03/amd-unveils-olmo-its-first-fully-open-1b-parameter-llm-series/

Không có file đính kèm.

Nguồn tham khảo

186

AI quân sự AI mở-nguồn mở 2024-11-02 11:29:43

Trung Quốc phát triển AI quân sự ChatBIT dựa trên mô hình Llama của Meta, đạt 90% hiệu suất GPT-4

- Các nhà nghiên cứu Trung Quốc có liên hệ với Quân đội Giải phóng Nhân dân (PLA) đã phát triển mô hình AI mang tên ChatBIT, sử dụng mô hình nguồn mở Llama của Meta.

- ChatBIT được thiết kế cho các ứng dụng quân sự và được tối ưu hóa cho các nhiệm vụ đối thoại và trả lời câu hỏi trong lĩnh vực quân sự.

- Mô hình này sử dụng Llama 13B, một mô hình ngôn ngữ lớn (LLM) đã được chỉnh sửa để phục vụ cho việc thu thập và xử lý thông tin tình báo.

- Theo một số tài liệu nghiên cứu, ChatBIT đạt hiệu suất khoảng 90% so với GPT-4 của OpenAI, mặc dù không có thông tin chi tiết về cách thức thử nghiệm hiệu suất.

- Việc sử dụng các mô hình AI nguồn mở có thể giúp ChatBIT cạnh tranh với các mô hình mới nhất từ các công ty công nghệ Mỹ trong các bài kiểm tra chuẩn.

- Một số chuyên gia cho rằng đây là lần đầu tiên có bằng chứng rõ ràng rằng các chuyên gia quân sự PLA đang nghiên cứu và tìm cách tận dụng sức mạnh của các LLM nguồn mở, đặc biệt là của Meta.

- Giấy phép của Meta cấm sử dụng Llama cho các ứng dụng quân sự, nhưng tính chất nguồn mở của nó khiến việc thực thi hạn chế này trở nên khó khăn.

- Meta đã phản hồi rằng việc sử dụng Llama 13B là không quan trọng vì đây là phiên bản "cũ" và họ đang phát triển Llama 4.

- Một số nhà nghiên cứu chỉ ra rằng ChatBIT chỉ sử dụng 100.000 bản ghi đối thoại quân sự, một con số nhỏ so với hàng triệu dữ liệu mà các mô hình hiện đại khác được huấn luyện.

- Mặc dù vậy, ChatBIT có thể chỉ là bằng chứng khái niệm cho thấy các viện nghiên cứu quân sự có kế hoạch phát triển các mô hình lớn hơn trong tương lai.

- Chính phủ Trung Quốc có thể đã công bố các tài liệu nghiên cứu này như một tín hiệu gửi đến Mỹ rằng họ không ngại sử dụng AI để tạo lợi thế công nghệ trên trường quốc tế.

- Washington lo ngại về việc sử dụng công nghệ nguồn mở của Mỹ sẽ mang lại lợi thế quân sự cho đối thủ. Do đó, nhiều nhà lập pháp Mỹ muốn chặn quyền truy cập của Trung Quốc vào các công nghệ tiêu chuẩn nguồn mở như RISC-V.

📌 Các nhà nghiên cứu Trung Quốc đã phát triển mô hình AI quân sự ChatBIT dựa trên Llama của Meta, đạt 90% hiệu suất GPT-4. Điều này gây lo ngại cho Washington về việc đối thủ có thể tận dụng công nghệ nguồn mở để tăng cường sức mạnh quân sự.

https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-researchers-build-military-ai-using-metas-open-source-llama-model-chatbit-allegedly-performs-at-around-90-percent-of-the-performance-of-openai-gpt-4-llm

Không có file đính kèm.

Nguồn tham khảo

149

AI smartphone AI nhỏ AI mở-nguồn mở 2024-11-02 08:54:47

Meta tung MobileLLM - Mô hình AI siêu nhẹ chạy trên điện thoại với hiệu suất ngang Llama-2 7B

- Meta AI vừa công bố phiên bản nguồn mở của MobileLLM, bộ mô hình ngôn ngữ được tối ưu hóa cho thiết bị di động, với mã nguồn và trọng số có sẵn trên Hugging Face

- Mô hình hiện chỉ được cấp phép Creative Commons 4.0 phi thương mại, giới hạn việc sử dụng trong nghiên cứu

- MobileLLM có số lượng tham số từ 125 triệu đến 1 tỷ, được thiết kế phù hợp với bộ nhớ và năng lượng hạn chế của phần cứng di động

- Kiến trúc độc đáo của MobileLLM tập trung vào chiều sâu thay vì chiều rộng, khác biệt so với quy luật mở rộng AI truyền thống

- Mô hình tích hợp nhiều cải tiến quan trọng:
• Ưu tiên chiều sâu hơn chiều rộng
• Kỹ thuật chia sẻ embedding
• Cơ chế chú ý truy vấn theo nhóm
• Chia sẻ trọng số theo khối tức thì

- Phiên bản 350 triệu tham số đạt hiệu suất ngang bằng với Meta Llama-2 7B trong việc gọi API

- MobileLLM được tối ưu hóa cho thiết bị có bộ nhớ 6-12 GB, phù hợp với smartphone phổ biến như iPhone và Google Pixel

- Mô hình 125 triệu và 350 triệu tham số cải thiện độ chính xác lần lượt 2,7% và 4,3% so với các mô hình tốt nhất trước đây trong các tác vụ zero-shot

📌 Meta AI đã tạo bước đột phá với MobileLLM - mô hình ngôn ngữ hiệu quả cao chạy trên thiết bị di động. Với kiến trúc sâu và mỏng độc đáo, phiên bản 350 triệu tham số đạt hiệu suất ngang Meta Llama-2 7B, mở ra tiềm năng mới cho AI trên thiết bị cầm tay.

https://venturebeat.com/ai/meta-makes-its-mobilellm-open-for-researchers-posting-full-weights/

Không có file đính kèm.

Nguồn tham khảo

302

AI models AI mở-nguồn mở 2024-11-01 00:45:35

Meta huấn luyện Llama 4 trên cụm GPU khổng lồ với hơn 100.000 chip H100

- Mark Zuckerberg công bố Meta đang huấn luyện mô hình Llama 4 trên cụm GPU lớn hơn 100.000 chip H100, vượt xa quy mô của bất kỳ đối thủ nào

- Llama 4 dự kiến ra mắt đầu năm 2025, với các phiên bản nhỏ sẽ được phát hành trước

- Cụm máy tính này tiêu thụ khoảng 150 megawatt điện năng, gấp 5 lần so với siêu máy tính El Capitan (30 megawatt)

- Meta dự kiến chi 40 tỷ USD trong năm 2024 cho cơ sở hạ tầng và trung tâm dữ liệu, tăng 42% so với năm 2023

- Doanh thu của Meta tăng 22% trong khi chi phí hoạt động chỉ tăng 9%, cho phép công ty đầu tư mạnh vào phát triển Llama

- Meta AI, chatbot dựa trên Llama, hiện có hơn 500 triệu người dùng hàng tháng trên các nền tảng Facebook, Instagram và WhatsApp

- Meta theo đuổi chiến lược nguồn mở với Llama, khác biệt so với các đối thủ như OpenAI và Google

- Llama 4 sẽ có các tính năng mới như "multimodal", khả năng suy luận mạnh mẽ hơn và tốc độ nhanh hơn

- Một số chuyên gia lo ngại việc cung cấp mô hình AI mạnh mẽ miễn phí có thể gây rủi ro an ninh mạng

- Meta kỳ vọng sẽ tạo doanh thu từ quảng cáo thông qua tính năng Meta AI trong tương lai

📌 Meta đang dẫn đầu cuộc đua AI với cụm GPU 100.000 chip H100 để phát triển Llama 4. Với 500 triệu người dùng Meta AI hàng tháng và khoản đầu tư 40 tỷ USD cho cơ sở hạ tầng năm 2024, Meta đang đặt cược lớn vào chiến lược AI nguồn mở.

https://www.wired.com/story/meta-llama-ai-gpu-training/

Không có file đính kèm.

Nguồn tham khảo

273

AI skill-talent AI mở-nguồn mở 2024-10-31 07:52:46

Singapore có 1,3 triệu lập trình viên, chiếm 1/4 dân số và đang tăng trưởng mạnh mẽ

- Singapore hiện có hơn 1,3 triệu lập trình viên trong tổng dân số 6 triệu người, với tốc độ tăng trưởng 28% trong 12 tháng tính đến tháng 9/2024

- Quốc đảo xếp hạng 9 toàn cầu về số lượng người đóng góp cho các dự án AI trên GitHub, với hơn 9.700 lập trình viên tham gia

- Năm 2024 chứng kiến sự tăng trưởng mạnh mẽ trên GitHub:
• Đóng góp cho dự án AI tạo sinh tăng 59%
• Số lượng dự án tăng 98%

- GitHub giới thiệu các tính năng mới tại hội nghị Universe ở San Francisco:
• Cho phép lựa chọn mô hình ngôn ngữ lớn từ Anthropic, Google và OpenAI
• Ra mắt GitHub Spark - công cụ AI tạo ứng dụng web bằng lệnh ngôn ngữ tự nhiên

- Về tài chính:
• Phí người dùng cá nhân: 10 USD/tháng hoặc 100 USD/năm
• Phí doanh nghiệp: 19-39 USD/tháng
• GitHub có 1,8 triệu người dùng trả phí
• Doanh thu dự kiến đạt 2 tỷ USD/năm

- Xu hướng công nghệ 2024:
• Python vượt qua JavaScript trở thành ngôn ngữ phổ biến nhất
• Jupyter Notebooks tăng trưởng 92%
• ANZ Bank báo cáo năng suất lập trình tăng 42% nhờ Copilot

📌 Singapore đang chứng kiến sự bùng nổ về số lượng lập trình viên với 1,3 triệu người (chiếm 1/4 dân số), tăng trưởng 28% trong năm 2024. Quốc đảo này xếp hạng 9 toàn cầu về đóng góp cho dự án AI, khẳng định vị thế là trung tâm công nghệ hàng đầu châu Á.

https://www.straitstimes.com/business/spore-has-1-3m-coders-ranks-9th-globally-for-helping-ai-projects-github

Không có file đính kèm.

Nguồn tham khảo

128

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-10-29 15:04:29

OmniParser của Microsoft: Mô hình AI mới vượt qua cả GPT-4V

- OmniParser là mô hình AI hoàn toàn dựa trên giao diện đồ họa người dùng (GUI), được Microsoft công bố trên blog AI Frontiers.
- Mô hình này được phát hành trên Hugging Face với giấy phép MIT, tương tự như tính năng "Sử dụng máy tính" của Anthropic.
- Sự ra mắt của OmniParser củng cố vị thế của Microsoft trong ngành AI Agent, sau khi gia nhập Super League cùng Oracle và Salesforce vào tháng 9.
- Nghiên cứu đầu tiên về OmniParser được công bố vào tháng 3 năm 2024 bởi Jianqiang Wan và nhóm từ Alibaba Group và Đại học Khoa học và Công nghệ Huazhong.
- Một bài báo chi tiết về OmniParser được phát hành vào tháng 8 bởi Yadong Lu và các đồng nghiệp từ Microsoft Research, chứng minh rằng OmniParser vượt trội hơn các chuẩn mực GPT-4V ngay cả khi chỉ sử dụng đầu vào từ ảnh chụp màn hình.
- OmniParser được mô tả là công cụ đa năng, chuyển đổi ảnh chụp màn hình giao diện người dùng thành dữ liệu và nâng cao khả năng hiểu biết của các mô hình ngôn ngữ lớn (LLMs) về giao diện.
- Ra mắt kèm theo hai loại tập dữ liệu: một để phát hiện biểu tượng có thể nhấp và một để mô tả chức năng của từng biểu tượng.
- Trong các bài kiểm tra trên các chuẩn mực như SeeClick, Mind2Web và AITW, OmniParser luôn vượt trội hơn GPT-4V và GPT-4 với khả năng nhìn.
- Để tương thích với các LLM hiện tại, OmniParser đã được kết hợp với các mô hình mới nhất như Phi-3.5-V và Llama-3.2-V.
- Kết quả cho thấy mô hình phát hiện vùng tương tác (ID) đã cải thiện hiệu suất nhiệm vụ đáng kể so với mô hình Grounding DINO không tinh chỉnh.
- Tăng cường hiệu suất đến từ "ngữ nghĩa địa phương" (LS) liên kết chức năng của mỗi biểu tượng với mục đích của nó.
- Với sự gia tăng sử dụng các LLM khác nhau, nhu cầu về các AI agent cải tiến cho các chức năng giao diện người dùng cũng tăng cao.
- Mặc dù GPT-4V hứa hẹn nhiều tiềm năng, nhưng khả năng hoạt động như một agent tổng quát trong hệ điều hành thường bị đánh giá thấp do kỹ thuật phân tích màn hình chưa đủ mạnh.
- Theo chuẩn ScreenSpot, OmniParser cải thiện khả năng tạo hành động của GPT-4V phù hợp với các khu vực liên quan trong giao diện người dùng.
- Một bài báo khác công bố vào tháng 9 năm 2024 cho thấy kết quả thử nghiệm tốt nhất cho agent sử dụng OmniParser tích hợp với GPT-4V.

📌 OmniParser là mô hình AI mới của Microsoft, vượt qua GPT-4V trong nhiều bài kiểm tra. Sự ra mắt này đánh dấu bước tiến quan trọng trong ngành AI Agent, với khả năng chuyển đổi ảnh chụp màn hình thành dữ liệu và cải thiện hiệu suất giao diện người dùng.

https://analyticsindiamag.com/ai-news-updates/microsoft-drops-omniparser-its-new-ai-model/

Không có file đính kèm.

Nguồn tham khảo

171

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-10-29 15:00:22

Zhipu AI vừa ra mắt GLM-4-Voice, mô hình ngôn ngữ lớn đầu cuối mã nguồn mở

- GLM-4-Voice là mô hình ngôn ngữ lớn đầu cuối mã nguồn mở vừa được Zhipu AI phát hành vào ngày 25 tháng 10 năm 2024.
- Mô hình này nhằm khắc phục những hạn chế của các hệ thống nhận diện giọng nói truyền thống, như khả năng hiểu cảm xúc và biến thể trong khẩu ngữ.
- GLM-4-Voice tích hợp nhận diện giọng nói, hiểu ngôn ngữ và tạo giọng nói trong một hệ thống duy nhất, hỗ trợ cả tiếng Trung và tiếng Anh.
- Việc tích hợp này giúp loại bỏ các quy trình phức tạp thường thấy trong các mô hình trước đây, cho phép xử lý hiệu quả hơn.
- Một tính năng nổi bật của GLM-4-Voice là khả năng điều chỉnh cảm xúc, âm điệu và tốc độ dựa trên hướng dẫn của người dùng.
- Mô hình có độ trễ thấp và hỗ trợ phơi nhiễm thời gian thực, giúp tương tác trở nên tự nhiên hơn khi người dùng có thể nói chồng lên nhau mà không bị gián đoạn.
- GLM-4-Voice cải thiện đáng kể cách tương tác giữa con người và máy móc, làm cho các cuộc trò chuyện trở nên trực quan và dễ tiếp cận hơn.
- Các trợ lý giọng nói hiện tại thường cảm thấy cứng nhắc vì không thể điều chỉnh theo dòng chảy của cuộc trò chuyện con người. GLM-4-Voice giải quyết vấn đề này bằng cách điều chỉnh đầu ra giọng nói để làm cho cuộc trò chuyện trở nên biểu cảm hơn.
- Các thử nghiệm ban đầu cho thấy GLM-4-Voice hoạt động tốt hơn với chuyển tiếp giọng nói mượt mà và khả năng xử lý sự gián đoạn tốt hơn so với các phiên bản trước.
- Dữ liệu ban đầu từ Zhipu AI cho thấy GLM-4-Voice có độ phản hồi tốt hơn với độ trễ giảm, nâng cao sự hài lòng của người dùng trong các ứng dụng tương tác.
- Mô hình này hứa hẹn sẽ ảnh hưởng đến nhiều lĩnh vực như trợ lý cá nhân, dịch vụ khách hàng, giải trí và giáo dục.

📌 GLM-4-Voice của Zhipu AI là bước tiến quan trọng trong mô hình AI giọng nói với khả năng điều chỉnh cảm xúc và hỗ trợ đa ngôn ngữ. Mô hình này mang lại trải nghiệm tương tác tự nhiên hơn với độ trễ thấp và khả năng xử lý sự gián đoạn hiệu quả.

https://www.marktechpost.com/2024/10/25/zhipu-ai-releases-glm-4-voice-a-new-open-source-end-to-end-speech-large-language-model/

Không có file đính kèm.

Nguồn tham khảo

206

AI mở-nguồn mở AI robotics-auto-agents 2024-10-29 07:16:57

Windows Agent Arena - nền tảng thử nghiệm AI agent trên Windows với 150 tác vụ tự động hóa

• Microsoft vừa công bố Windows Agent Arena - nền tảng benchmark mới để kiểm thử AI agent trong môi trường Windows thực tế

• Nền tảng này cho phép thử nghiệm AI agent trên nhiều ứng dụng Windows như Microsoft Edge, Paint, Clock, VLC media player

• Microsoft Research phát triển AI agent đa phương thức tên Navi để khám phá khả năng của framework

• Kết quả benchmark cho thấy tỷ lệ thành công trung bình của AI agent chỉ đạt 19,5% so với hiệu suất trung bình của con người là 74,5%

• Nền tảng này được phát triển dựa trên framework OSWorld với hơn 150 tác vụ Windows đa dạng

• Windows Agent Arena là dự án nguồn mở, sử dụng các mô hình từ OpenAI như GPT-4V và Microsoft Phi3

• Salesforce CEO Marc Benioff chỉ trích Microsoft Copilot là "Clippy 2.0" và cho rằng Microsoft thiếu dữ liệu và mô hình bảo mật doanh nghiệp

• Các mối quan ngại chính về bảo mật và quyền riêng tư khi AI agent ngày càng tinh vi và có quyền truy cập nhiều ứng dụng chứa thông tin cá nhân

• Microsoft cam kết ưu tiên đạo đức AI, đặt quyền riêng tư và an toàn lên hàng đầu

• Anthropic cũng vừa ra mắt API "Computer Use" cho phép Claude sử dụng máy tính như người thật

📌 Microsoft phát triển Windows Agent Arena để thử nghiệm AI agent trên Windows với 150 tác vụ tự động. Hiệu suất AI chỉ đạt 19,5% so với con người (74,5%). Dự án nguồn mở này đối mặt thách thức về bảo mật và quyền riêng tư khi AI ngày càng tinh vi.

https://www.windowscentral.com/software-apps/microsofts-windows-agent-arena-brings-ai-assistants-keyboard-deep-to-windows-pcs-but-there-are-concerns

Không có file đính kèm.

Nguồn tham khảo

148

AI mở-nguồn mở 2024-10-29 07:07:46

Lần đầu tiên có định nghĩa "chính thức" về AI nguồn mở

• Sáng kiến Nguồn mở (OSI) vừa công bố phiên bản 1.0 của Định nghĩa AI Nguồn mở (OSAID) sau nhiều năm hợp tác với học giới và công nghiệp

• Theo OSAID, một mô hình AI nguồn mở phải:
- Cung cấp đầy đủ thông tin về thiết kế để có thể tái tạo lại
- Công khai chi tiết về dữ liệu huấn luyện, nguồn gốc và cách xử lý
- Cho phép sử dụng cho mọi mục đích không cần xin phép
- Cho phép chỉnh sửa và phát triển tiếp

• Nhiều công ty công nghệ lớn chưa đáp ứng tiêu chuẩn OSAID:
- Meta yêu cầu giấy phép đặc biệt với nền tảng trên 700 triệu người dùng
- Stability AI đòi hỏi giấy phép doanh nghiệp với công ty có doanh thu trên 1 triệu USD
- Mistral hạn chế sử dụng một số mô hình cho mục đích thương mại

• Nghiên cứu từ Signal Foundation chỉ ra nhiều dự án "nguồn mở" chỉ mang tính danh nghĩa:
- Giữ bí mật dữ liệu huấn luyện
- Yêu cầu năng lực tính toán vượt tầm nhiều nhà phát triển
- Kỹ thuật tinh chỉnh phức tạp

• Meta phản đối OSAID với lý do:
- Cần hạn chế chia sẻ chi tiết do quy định pháp lý đang thay đổi
- Điều khoản sử dụng giúp ngăn chặn việc sử dụng có hại
- Không có định nghĩa duy nhất về AI nguồn mở

📌 Định nghĩa OSAID đánh dấu bước ngoặt trong việc thiết lập tiêu chuẩn cho AI nguồn mở, tuy nhiên vẫn còn nhiều thách thức về bản quyền và dữ liệu huấn luyện. Hiện chỉ một số ít mô hình AI đáp ứng đầy đủ các tiêu chí, trong khi các gã khổng lồ công nghệ vẫn đang tranh cãi về định nghĩa này.

https://techcrunch.com/2024/10/28/we-finally-have-an-official-definition-for-open-source-ai/

Không có file đính kèm.

Nguồn tham khảo

140

AI nhỏ AI PC AI mở-nguồn mở 2024-10-29 06:01:40

LLMWare giới thiệu Model Depot - bộ sưu tập SLM lớn nhất được tối ưu hóa cho máy tính Intel

• LLMWare.ai công bố ra mắt Model Depot trên Hugging Face - bộ sưu tập hơn 100 mô hình ngôn ngữ nhỏ (SLM) được tối ưu hóa cho máy tính Intel

• Model Depot hỗ trợ nhiều ứng dụng: chat, lập trình, toán học, function calling và embedding models, được định dạng theo OpenVINO và ONNX của Intel

• Kết quả thử nghiệm trên laptop Dell với chip Intel Core Ultra 9 cho thấy:
- Mô hình BLING-Tiny-Llama 1,1B tham số chạy nhanh hơn 7,6 lần so với PyTorch
- Nhanh hơn 7,5 lần so với định dạng GGUF

• Model Depot tích hợp các mô hình phổ biến:
- Microsoft Phi-3
- Mistal
- Llama
- Yi
- Qwen
- Các mô hình chuyên biệt của LLMWare: SLIM, DRAGON, BLING

• LLMWare vừa công bố hợp tác chiến lược với Intel để ra mắt Model HQ (phiên bản preview) với các tính năng:
- Bộ công cụ no-code để chạy và triển khai ứng dụng AI
- Tích hợp sẵn UI/UX
- Chatbot và tìm kiếm/phân tích tài liệu
- Các tính năng bảo mật: Model Vault, Model Safety Monitor, bộ lọc quyền riêng tư

• Ưu điểm của việc triển khai AI trên máy tính cá nhân:
- Tăng cường bảo mật dữ liệu
- Không cần sao chép dữ liệu ra hệ thống bên ngoài
- Tiết kiệm chi phí đáng kể
- Triển khai được nhiều ứng dụng AI nhẹ cục bộ

📌 Model Depot cung cấp hơn 100 mô hình ngôn ngữ nhỏ tối ưu cho máy tính Intel, cho phép xử lý nhanh hơn 7,6 lần so với các định dạng thông thường. Đây là bước tiến quan trọng trong việc phổ cập AI an toàn, riêng tư và phi tập trung cho doanh nghiệp.

https://www.marktechpost.com/2024/10/28/llmware-introduces-model-depot-an-extensive-collection-of-small-language-models-slms-for-intel-pcs/

Không có file đính kèm.

Nguồn tham khảo

175

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-10-28 07:36:46

Meta thách thức Google: Ra mắt công cụ tạo podcast AI nguồn mở NotebookLlama

• Meta vừa công bố NotebookLlama - phiên bản nguồn mở của tính năng tạo podcast tự động trong NotebookLM của Google

• NotebookLlama sử dụng mô hình Llama của Meta để thực hiện phần lớn quá trình xử lý

• Quy trình hoạt động của NotebookLlama:
- Đầu tiên tạo bản ghi từ file đầu vào (PDF tin tức hoặc bài blog)
- Thêm các yếu tố kịch tính và ngắt quãng
- Chuyển bản ghi thành giọng nói qua các mô hình text-to-speech nguồn mở

• Chất lượng âm thanh của NotebookLlama còn hạn chế so với NotebookLM:
- Giọng nói có âm sắc máy móc rõ rệt
- Các giọng thường chồng lấn nhau ở những điểm không phù hợp

• Nhóm nghiên cứu của Meta cho biết chất lượng có thể cải thiện với mô hình mạnh hơn:
- Mô hình text-to-speech hiện là điểm giới hạn về độ tự nhiên
- Đề xuất cách tiếp cận mới: sử dụng 2 agent tranh luận để viết dàn ý podcast thay vì một mô hình đơn lẻ

• NotebookLlama không phải nỗ lực đầu tiên nhằm sao chép tính năng podcast của NotebookLM, một số dự án khác đã thành công hơn

• Tuy nhiên, tất cả các hệ thống AI tạo podcast hiện nay đều chưa giải quyết được vấn đề ảo giác (hallucination) - tạo ra thông tin không có thật

📌 Meta tạo bước đột phá với NotebookLlama - công cụ tạo podcast AI nguồn mở dựa trên mô hình Llama, dù chất lượng âm thanh còn hạn chế nhưng mở ra tiềm năng cải tiến với mô hình mạnh hơn. Vấn đề ảo giác vẫn là thách thức chung cho mọi hệ thống AI tạo podcast.

https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/

Không có file đính kèm.

Nguồn tham khảo

173

AI mở-nguồn mở 2024-10-26 07:44:37

Cohere ra mắt 2 mô hình AI mới Aya Expanse nhằm thu hẹp khoảng cách 23 ngôn ngữ

• Cohere vừa phát hành hai mô hình nguồn mở mới thuộc dự án Aya: Aya Expanse 8B và 35B trên nền tảng Hugging Face

• Mô hình Aya Expanse 8B với 8 tỷ tham số giúp các nhà nghiên cứu dễ dàng tiếp cận hơn với công nghệ đột phá

• Mô hình Aya Expanse 32B cung cấp khả năng xử lý đa ngôn ngữ tiên tiến nhất hiện nay

• Dự án Aya được Cohere for AI - bộ phận nghiên cứu của công ty khởi động năm 2023, với mục tiêu mở rộng khả năng tiếp cận mô hình nền tảng cho nhiều ngôn ngữ toàn cầu

• Tháng 2/2024, Cohere đã ra mắt Aya 101 LLM với 13 tỷ tham số, hỗ trợ 101 ngôn ngữ

• Hai mô hình Aya Expanse mới vượt trội hơn các mô hình tương đương từ Google, Mistral và Meta trong các bài kiểm tra chuẩn đa ngôn ngữ

• Aya Expanse 32B hoạt động tốt hơn Gemma 2 27B, Mistral 8x22B và cả Llama 3.1 70B

• Cohere sử dụng phương pháp lấy mẫu dữ liệu "data arbitrage" để tránh tạo ra nội dung vô nghĩa khi mô hình dựa vào dữ liệu tổng hợp

• Công ty tập trung vào việc hướng dẫn mô hình theo "sở thích toàn cầu" và tính đến các quan điểm văn hóa, ngôn ngữ khác nhau

• Tuần này, Cohere cũng bổ sung tính năng tìm kiếm hình ảnh cho Embed 3 và nâng cao khả năng tinh chỉnh cho mô hình Command R 08-2024

📌 Cohere đạt bước tiến quan trọng trong việc phát triển AI đa ngôn ngữ với hai mô hình Aya Expanse mới, vượt trội hơn các đối thủ lớn như Google và Meta. Mô hình 32B xử lý được 23 ngôn ngữ, trong khi mô hình 8B giúp các nhà nghiên cứu dễ dàng tiếp cận công nghệ đột phá này.

https://venturebeat.com/ai/cohere-launches-new-ai-models-to-bridge-global-language-divide/

Không có file đính kèm.

Nguồn tham khảo

143

AI mở-nguồn mở AI nhỏ 2024-10-26 06:34:13

Meta AI ra mắt Llama 3.2 tăng tốc độ xử lý lên 2-4 lần, giảm 56% kích cỡ

• Meta AI vừa phát hành phiên bản Llama 3.2 được tối ưu hóa với hai biến thể 1B và 3B, là những mô hình Llama đầu tiên đủ nhẹ để chạy trên nhiều thiết bị di động phổ biến

• Hai kỹ thuật lượng tử hóa được áp dụng:
- Quantization-Aware Training (QAT) với bộ điều hợp LoRA tập trung vào độ chính xác
- SpinQuant: phương pháp lượng tử hóa sau huấn luyện tập trung vào tính di động

• Những cải tiến đáng kể:
- Tăng tốc độ xử lý lên 2-4 lần
- Giảm 56% kích thước mô hình
- Giảm 41% mức sử dụng bộ nhớ so với định dạng BF16 gốc

• Kỹ thuật lượng tử hóa chuyển đổi số dấu phẩy động 32-bit thành biểu diễn 8-bit và 4-bit, giúp mô hình hoạt động hiệu quả với ít bộ nhớ và năng lực tính toán hơn

• Meta AI hợp tác với Qualcomm và MediaTek để triển khai mô hình trên các chip SoC với CPU Arm

• Kết quả thử nghiệm ban đầu cho thấy hiệu suất đạt khoảng 95% so với mô hình Llama 3 đầy đủ nhưng giảm 60% mức sử dụng bộ nhớ

• Framework PyTorch's ExecuTorch hỗ trợ suy luận sử dụng cả hai kỹ thuật lượng tử hóa

📌 Meta AI đã thu nhỏ thành công mô hình Llama 3.2 với hiệu suất đạt 95% nhưng giảm 56% kích thước và tăng tốc độ xử lý lên 2-4 lần. Đây là bước tiến quan trọng giúp phổ cập AI đến nhiều đối tượng hơn, đặc biệt trên các thiết bị di động thông thường.

https://www.marktechpost.com/2024/10/24/meta-ai-releases-new-quantized-versions-of-llama-3-2-1b-3b-delivering-up-to-2-4x-increases-in-inference-speed-and-56-reduction-in-model-size/

Không có file đính kèm.

Nguồn tham khảo

288

AI mở-nguồn mở 2024-10-25 07:17:40

Tại sao cuối cùng thì LLM mở sẽ thắng trong cuộc đua AI doanh nghiệp

Các doanh nghiệp đang chuyển sang sử dụng mô hình ngôn ngữ mở (LLMs) vì mong muốn có nhiều quyền kiểm soát hơn và tối ưu hóa chi phí. Trong khi các mô hình đóng như GPT-4 của OpenAI thống trị ban đầu, các mô hình mở đã nhanh chóng thu hẹp khoảng cách về chất lượng và phổ biến trong các doanh nghiệp.
Meta Llama đã dẫn đầu xu hướng này với hơn 400 triệu lượt tải xuống, và các doanh nghiệp như AT&T, DoorDash, và Goldman Sachs đã triển khai các mô hình Llama cho nhiều mục đích, từ tự động hóa dịch vụ khách hàng đến phân tích tài chính. Các công ty như Oracle, SAP, và Salesforce cũng tích hợp các mô hình mở để đáp ứng nhu cầu linh hoạt của khách hàng.
Lợi thế của mô hình nguồn mở nằm ở khả năng tùy biến và kiểm soát toàn diện. Các doanh nghiệp có thể lựa chọn mô hình phù hợp với nhu cầu cụ thể, từ điều chỉnh mô hình đến triển khai trên hệ thống nội bộ hoặc đám mây. Ví dụ, Intuit đã sử dụng các mô hình Llama để cải thiện độ chính xác trong việc phân loại giao dịch cho QuickBooks.
Các doanh nghiệp lớn cũng nhấn mạnh an toàn và kiểm soát. Meta đã giới thiệu các tính năng như Llama Guard Vision để giám sát và lọc dữ liệu đầu vào và đầu ra, giúp đảm bảo tuân thủ quy định và bảo mật. AWS cũng hỗ trợ các mô hình mở qua dịch vụ Bedrock, cho phép doanh nghiệp thiết lập các tiêu chuẩn bảo mật trên nhiều mô hình khác nhau.
Giảm chi phí và loại bỏ phụ thuộc nhà cung cấp là động lực quan trọng thúc đẩy doanh nghiệp chuyển sang mô hình mở. Những công ty như ANZ Bank đã từ bỏ OpenAI để tùy chỉnh mô hình Llama cho các ứng dụng tài chính cụ thể. Ngoài ra, các công cụ như "switch kits" của PostgresML giúp quá trình chuyển đổi từ mô hình đóng sang mở trở nên dễ dàng hơn.
Tương lai của LLMs có thể giống như cuộc chiến hệ điều hành. Các chuyên gia dự đoán rằng mô hình mở sẽ thống trị giống như cách Linux vượt qua Windows trong hệ thống doanh nghiệp. Meta đang đầu tư mạnh vào phát triển các phiên bản Llama mới, dự kiến sẽ dẫn đầu thị trường từ năm 2025.

📌

Doanh nghiệp đang nhận ra rằng mô hình ngôn ngữ mở mang lại nhiều lợi ích vượt trội về chi phí, kiểm soát và tính linh hoạt so với các giải pháp đóng. Xu hướng này đánh dấu sự chuyển mình trong ngành công nghiệp AI, với các công ty lớn như Meta và Salesforce đi tiên phong trong việc xây dựng nền tảng AI mở, giúp các doanh nghiệp tối ưu hóa hiệu quả và duy trì lợi thế cạnh tranh.

https://venturebeat.com/ai/the-enterprise-verdict-on-ai-models-why-open-source-will-win/

Không có file đính kèm.

Nguồn tham khảo

151

AI mở-nguồn mở 2024-10-24 05:11:59

Google ra mắt SynthID cho phép mọi người kiểm tra nội dung do AI tạo ra

- SynthID, công cụ xác thực nội dung AI, hiện đã mở cho tất cả người dùng thử nghiệm, theo thông báo của Google trên X (trước đây là Twitter) ngày 23/10/2024.
- Công cụ này tạo thủy vân không thể nhận biết cho nội dung do AI tạo ra, bao gồm hình ảnh, video và văn bản, giúp người dùng xác minh nội dung có phải do con người hay máy móc tạo ra.
- SynthID đã ra mắt lần đầu vào năm 2023 và được tích hợp vào Imagen; từ tháng 5/2024, SynthID cũng được tích hợp vào chatbot Gemini của Google.
- Google tuyên bố đã mã nguồn mở SynthID Text trên nền tảng Hugging Face, giúp các nhà phát triển và doanh nghiệp sử dụng miễn phí công cụ này để kiểm tra và xác định nội dung AI.
- SynthID mã hóa thủy vân vào nội dung bằng cách điều chỉnh xác suất xuất hiện của các token trong quá trình sinh nội dung mà không ảnh hưởng đến độ chính xác, chất lượng hoặc tốc độ phản hồi.
- Theo Google, công cụ này có khả năng nhận diện thủy vân ngay cả khi nội dung đã qua chỉnh sửa hoặc cắt ghép, vượt trội so với metadata truyền thống vốn dễ bị xóa bỏ.
- Tuy nhiên, SynthID gặp khó khăn khi kiểm tra các đoạn văn bản ngắn hoặc nội dung có tính tất yếu cao như câu trả lời cho câu hỏi “Thủ đô của Pháp là gì?” vì cả AI và con người đều trả lời giống nhau.
- Dù SynthID đã được thiết kế chống lại việc can thiệp, thủy vân của nó vẫn có thể bị xóa nếu văn bản được dịch sang ngôn ngữ khác hoặc viết lại hoàn toàn.
- SynthID được đánh giá cao bởi cộng đồng vì tính minh bạch và khả năng nguồn mở, cho phép kiểm tra độ tin cậy trong nhiều kịch bản khác nhau.

📌 Google đã chính thức mã nguồn mở SynthID, công cụ thủy vân AI, giúp phát hiện nội dung do AI tạo ra qua nhiều định dạng. Dù có khả năng chịu chỉnh sửa mạnh, công cụ này gặp giới hạn trong văn bản ngắn và nội dung có tính chính xác tuyệt đối. Người dùng có thể tải về từ Hugging Face để trải nghiệm trực tiếp.

https://www.digitaltrends.com/computing/google-synthid-now-available-public/

Không có file đính kèm.

Nguồn tham khảo

138

AI mở-nguồn mở 2024-10-22 07:17:33

IBM ra mắt mô hình ngôn ngữ lớn Granite 3.0 mã nguồn mở cho doanh nghiệp

• IBM vừa ra mắt thế hệ thứ 3 của mô hình ngôn ngữ lớn Granite, nhằm mở rộng hoạt động kinh doanh AI doanh nghiệp đang phát triển mạnh mẽ với doanh thu hơn 2 tỷ USD.

• Các mô hình mới bao gồm:
- Mô hình đa năng Granite 3.0 2 tỷ và 8 tỷ tham số
- Mô hình Mixture-of-Experts (MoE) như Granite 3.0 3B A800M Instruct, Granite 3.0 1B A400M Base
- Mô hình tối ưu hóa bảo mật Granite Guardian 3.0 8B và 2B

• Mô hình được huấn luyện bởi đội ngũ chuyên trách của IBM với 12 nghìn tỷ token dữ liệu đa ngôn ngữ và mã nguồn.

• IBM tuyên bố Granite 3.0 vượt trội so với các mô hình mới nhất của Google, Anthropic và các công ty khác trong nhiều tác vụ.

• Granite 3.0 được phát hành dưới giấy phép mã nguồn mở Apache 2.0, cho phép các đối tác doanh nghiệp tùy chỉnh và xây dựng sản phẩm riêng.

• Các ứng dụng tiềm năng bao gồm: dịch vụ khách hàng, tự động hóa CNTT, BPO, phát triển ứng dụng và bảo mật mạng.

• IBM nhấn mạnh tầm quan trọng của việc tối ưu hóa chi phí suy luận để triển khai AI quy mô lớn.

• Mô hình sẽ có sẵn trên nền tảng watsonX của IBM cũng như Amazon Bedrock, Amazon Sagemaker và Hugging Face.

• IBM đang hướng tới khái niệm "tính toán tạo sinh" - lập trình máy tính bằng cách cung cấp ví dụ thay vì hướng dẫn từng bước.

• Rob Thomas, Phó chủ tịch cấp cao của IBM, nhấn mạnh tốc độ tăng trưởng chưa từng có của mảng kinh doanh AI tạo sinh.

📌 IBM ra mắt Granite 3.0 - mô hình ngôn ngữ lớn mã nguồn mở cho doanh nghiệp với hiệu suất cao, tính năng bảo mật nâng cao. Mô hình được huấn luyện với 12 nghìn tỷ token dữ liệu, hỗ trợ nhiều ứng dụng AI doanh nghiệp và được cấp phép Apache 2.0, mở ra cơ hội phát triển hệ sinh thái AI mạnh mẽ.

https://venturebeat.com/ai/ibm-debuts-open-source-granite-3-0-llms-for-enterprise-ai/

Không có file đính kèm.

Nguồn tham khảo

145

AI mở-nguồn mở 2024-10-22 07:14:15

Nvidia ra mắt Llama-3.1-Nemotron-70B-Instruct, vượt trội hơn GPT-4 và Claude 3.5 Sonnet

• Nvidia vừa giới thiệu mô hình AI mới có tên Llama-3.1-Nemotron-70B-Instruct, được cho là vượt trội hơn các đối thủ cạnh tranh trong các bài kiểm tra chuẩn.

• Mô hình Nemotron-70B được xây dựng trên nền tảng Llama 3.1 của Meta Platforms Inc., đạt điểm số ấn tượng trong các bài kiểm tra: 85,0 trong Arena Hard, 57,6 trong AlpacaEval 2 LC và 8,98 trong GPT-4-Turbo MT-Bench.

• Kết quả vượt trội này cho thấy khả năng tạo ra các phản hồi giống con người trong các truy vấn chung và ứng dụng lập trình của mô hình.

• Nvidia đã công bố mã nguồn mở của Nemotron-70B trên nền tảng cộng đồng AI Hugging Face, cho phép các nhà phát triển tùy chỉnh mô hình theo nhu cầu của họ.

• Mô hình hiện đã có sẵn để xem trước trên trang web chính thức của Nvidia, giúp công chúng dễ dàng tiếp cận hơn.

• Việc ra mắt mô hình AI mới nhất này nhấn mạnh ảnh hưởng ngày càng tăng của Nvidia trong lĩnh vực phần mềm AI, một sự thay đổi so với trọng tâm truyền thống về GPU hiệu năng cao.

• Sự nhấn mạnh của công ty vào hiệu quả và khả năng tiếp cận cho thấy một thay đổi chiến lược hướng tới việc làm cho AI tiên tiến trở nên dễ áp dụng hơn đối với các nhà phát triển và cộng đồng AI nói chung.

• Đầu tháng này, CEO của Nvidia đã ca ngợi OpenAI, công ty mẹ của ChatGPT, là một trong những công ty có ảnh hưởng nhất của thời đại hiện nay trong một tập podcast Bg2 Pod.

• Thông báo mới nhất này được đưa ra trong bối cảnh Nvidia đang gặp thách thức về sản xuất chip Blackwell, dự kiến sẽ không có sẵn trước đầu năm 2025.

• Việc Nvidia tập trung vào phát triển mô hình AI hiệu quả và dễ tiếp cận cho thấy một bước chuyển chiến lược quan trọng trong ngành công nghiệp AI.

📌 Nvidia gây bất ngờ với mô hình AI nguồn mở Llama-3.1-Nemotron-70B-Instruct, vượt trội hơn GPT-4 và Claude 3.5 Sonnet trong các bài kiểm tra chuẩn. Mô hình 70 tỷ tham số này đạt điểm số ấn tượng: 85,0 trong Arena Hard, 57,6 trong AlpacaEval 2 LC, thể hiện khả năng tạo phản hồi giống người trong các truy vấn và lập trình.

Không có file đính kèm.

Nguồn tham khảo

142

AI mở-nguồn mở 2024-10-19 06:49:17

Meta bị tố lừa dối công chúng với chiêu trò "AI nguồn mở"

• Tổ chức Open Source Initiative (OSI) chỉ trích Meta Platforms vì quảng bá mô hình Llama là nguồn mở, gây nhầm lẫn cho công chúng.

• OSI cho rằng Meta đang làm sai lệch định nghĩa và tạo ra sự nhầm lẫn về các mô hình thực sự mã nguồn mở.

• Theo OSI, để được coi là nguồn mở, các công ty cần công khai thuật toán huấn luyện, phần mềm phát triển và "trọng số mô hình" - tham số số xác định cường độ tín hiệu giữa các mạng nơ-ron.

• Giám đốc điều hành OSI Stefano Maffulli cho rằng việc gắn mác nguồn mở của Meta là "cực kỳ có hại" trong bối cảnh các cơ quan quản lý như Ủy ban châu Âu đang ủng hộ phát triển "công nghệ nguồn mở thực sự".

• Maffulli chỉ ra rằng Google và Microsoft đã ngừng quảng bá mô hình của họ là nguồn mở, nhưng các cuộc thảo luận với Meta "không mang lại kết quả tương tự".

• Giám đốc nghiên cứu của IBM, Dario Gil, cũng than phiền về sự thiếu minh bạch trong các ấn phẩm của Meta giải thích chi tiết kỹ thuật về quá trình phát triển mô hình.

• Tuy nhiên, Gil thừa nhận mô hình của Meta vẫn là một lựa chọn tốt hơn so với các "mô hình hộp đen" không công khai cơ chế hoạt động nội bộ.

• Giấy phép Meta sử dụng ngăn cản đối thủ cạnh tranh sử dụng họ các mô hình của họ, mâu thuẫn với ý nghĩa của nguồn mở, mặc dù cho phép tải xuống miễn phí.

• Meta phản hồi rằng các định nghĩa nguồn mở hiện tại cho phần mềm không bao quát được sự phức tạp của các mô hình AI tiên tiến ngày nay.

• Công ty cam kết tiếp tục làm việc với ngành công nghiệp để đưa ra các định nghĩa mới phục vụ cộng đồng AI một cách an toàn và có trách nhiệm.

• Meta đã mở quyền truy cập vào mô hình Llama 2 vào năm 2023, cho phép "một thế hệ nhà phát triển và nhà nghiên cứu" thử nghiệm mô hình của họ.

• Hiện nay, các mô hình Llama đã được tải xuống hơn 400 triệu lần.

📌 Meta Platforms đối mặt với chỉ trích gay gắt từ OSI về việc gọi mô hình AI Llama là nguồn mở. Tranh cãi xoay quanh định nghĩa và tính minh bạch của "nguồn mở" trong lĩnh vực AI. Mặc dù bị chỉ trích, mô hình Llama vẫn được tải xuống hơn 400 triệu lần, cho thấy sức hút lớn trong cộng đồng.

https://www.mobileworldlive.com/meta/meta-platforms-under-fire-over-open-source-ai-branding/

Không có file đính kèm.

Nguồn tham khảo

170

OpenAI ChatGPT AI robotics-auto-agents AI mở-nguồn mở 2024-10-17 00:33:47

Swarm của OpenAI: Tạo và điều phối các AI agents thật là đơn giản!

• OpenAI vừa ra mắt Swarm, một khung mã nguồn mở thử nghiệm nhằm đơn giản hóa việc tạo và điều phối các tác nhân AI để tự động hóa tác vụ.

• Swarm tập trung vào cải thiện phối hợp và thực thi tác nhân thông qua hai khái niệm cốt lõi: tác nhân và bàn giao.

• Khung này cho phép chia nhỏ quy trình phức tạp thành các tác vụ có thể quản lý được, đảm bảo mỗi tác nhân được trang bị công cụ và hướng dẫn cần thiết để hoàn thành công việc hiệu quả.

• Swarm được thiết kế là một khung nhẹ, có thể kiểm soát và kiểm thử được, lý tưởng để phát triển các tác nhân AI tinh vi.

• Kiến trúc của Swarm ưu tiên điều phối và thực thi tác vụ liền mạch, dựa trên hai trụ cột cơ bản: tác nhân (được trang bị hướng dẫn và công cụ cụ thể) và bàn giao (đảm bảo chuyển giao suôn sẻ giữa các tác nhân).

• Swarm xuất sắc trong việc quản lý và chuyển giao tác vụ giữa các tác nhân với độ chính xác và linh hoạt cao.

• Một điểm mạnh chính của Swarm là sử dụng các biến ngữ cảnh, cho phép khung cung cấp phản hồi được cá nhân hóa cao, thích ứng với nhu cầu và tham số độc đáo của mỗi tác vụ.

• Ứng dụng thực tế của Swarm rất đa dạng, bao gồm tạo chiến dịch tiếp thị toàn diện từ một đầu vào trang web duy nhất.

• Swarm có thể xử lý các tác vụ phức tạp đòi hỏi hiểu biết tinh tế như dịch ngôn ngữ, hỗ trợ khách hàng nhận biết ngữ cảnh và phân tích dữ liệu.

• Để sử dụng Swarm, người dùng cần Python 3.10 trở lên. Khung này tích hợp liền mạch với API hoàn thành trò chuyện.

• Các tính năng kỹ thuật chính bao gồm kiến trúc mô-đun, quản lý bộ nhớ hiệu quả, xử lý lỗi và ghi nhật ký tích hợp, và tương thích với các thư viện AI và học máy phổ biến.

• Swarm hiện được định vị là một dự án thử nghiệm với trọng tâm mạnh mẽ về giáo dục, khuyến khích thử nghiệm và học tập.

• OpenAI tích cực khuyến khích sự tham gia của cộng đồng với Swarm bằng cách cung cấp nhiều ví dụ và tài nguyên.

• Là một dự án mã nguồn mở, Swarm chào đón đóng góp từ cộng đồng AI, thúc đẩy sự hợp tác và đổi mới.

📌 Swarm của OpenAI là khung mã nguồn mở thử nghiệm đột phá cho phép tạo và điều phối tác nhân AI dễ dàng. Với tính linh hoạt cao, Swarm có thể xử lý nhiều tác vụ phức tạp từ tiếp thị đến phân tích dữ liệu. Dự án này mở ra cơ hội học tập và đổi mới cho cộng đồng AI toàn cầu.

https://www.geeky-gadgets.com/how-openais-swarm-is-changing-the-game-for-ai-agents/

Không có file đính kèm.

Nguồn tham khảo

138

AI mở-nguồn mở 2024-10-07 23:34:31

tại sao mã nguồn mở không thể "cứu" AI khỏi sự thống trị của một số ít công ty lớn

• Clem Delangue, CEO của Hugging Face, cho rằng mã nguồn mở sẽ giúp AI không chỉ nằm trong tay một số ít công ty. Tuy nhiên, lịch sử cho thấy điều này khó xảy ra.

• Mã nguồn mở đóng vai trò quan trọng trong phát triển phần mềm, nhưng chưa từng ngăn cản sự tập trung thị trường vào tay một số ít công ty lớn.

• Thị trường điện toán đám mây là ví dụ điển hình: dù phụ thuộc vào mã nguồn mở, nhưng chỉ có một số ít "ông lớn" thống trị.

• Người dùng và doanh nghiệp sẵn sàng trả tiền để được đơn giản hóa sự phức tạp của lựa chọn. Điều này tất yếu dẫn đến sự tập trung thị trường.

• Delangue cho rằng mã nguồn mở tạo ra nhiều cơ hội xây dựng AI cho nhiều công ty hơn. Tuy nhiên, điều này không đồng nghĩa với việc người dùng sẽ không phụ thuộc vào các công ty công nghệ lớn.

• Trong lĩnh vực điện toán đám mây, mã nguồn mở thậm chí còn làm tăng sự tập trung thị trường. Doanh nghiệp cần các công ty đám mây giúp họ hiểu và sử dụng hiệu quả các công nghệ mã nguồn mở.

• Amazon Web Services, công ty đóng góp ít nhất cho mã nguồn mở, lại là công ty thành công nhất trong lĩnh vực điện toán đám mây nhờ đáp ứng nhu cầu của khách hàng.

• Trong lĩnh vực AI, sự cạnh tranh chủ yếu đến từ các công ty lớn như Microsoft, Meta và Google, chứ không phải từ các dự án mã nguồn mở.

• Vấn đề lớn nhất của AI hiện nay là đòi hỏi người dùng phải thực hiện nhiều thao tác phức tạp. Người dùng cần AI đơn giản hơn, chứ không cần thêm nhiều lựa chọn mã nguồn mở.

• Mã nguồn mở sẽ không dân chủ hóa AI giống như nó đã không làm được điều đó với bất kỳ thị trường nào khác.

• Khách hàng sẵn sàng trả tiền cho sự tiện lợi và đơn giản. Họ không quan tâm đến phần mềm nền tảng, mà chỉ quan tâm đến trải nghiệm sử dụng.

📌 Mã nguồn mở đóng vai trò quan trọng trong phát triển AI nhưng không thể ngăn cản sự tập trung thị trường. Lịch sử cho thấy khách hàng ưu tiên sự đơn giản và tiện lợi, dẫn đến sự thống trị của một số ít công ty lớn có khả năng cung cấp những giải pháp toàn diện và dễ sử dụng.

https://www.infoworld.com/article/3548263/open-source-isnt-going-to-save-ai.html

Không có file đính kèm.

Nguồn tham khảo

128

AI nhỏ AI mở-nguồn mở 2024-10-07 07:55:05

Google ra mắt Gemma-2-JPN: mô hình AI 2B tinh chỉnh cho tiếng Nhật

• Google vừa ra mắt mô hình "gemma-2-2b-jpn-it", thành viên mới trong họ mô hình ngôn ngữ Gemma, được thiết kế đặc biệt cho tiếng Nhật.

• Đây là mô hình text-to-text, chỉ giải mã với trọng số mở, có thể tinh chỉnh cho nhiều tác vụ tạo văn bản như trả lời câu hỏi, tóm tắt và suy luận.

• Mô hình có 2,61 tỷ tham số, sử dụng kiểu tensor BF16 và lấy cảm hứng kiến trúc từ họ mô hình Gemini của Google.

• Gemma-2-2b-jpn-it tương thích với phần cứng Tensor Processing Unit (TPU) mới nhất của Google, cụ thể là TPUv5p, giúp tăng tốc độ đào tạo và hiệu suất mô hình.

• Về phần mềm, mô hình sử dụng các framework JAX và ML Pathways để đào tạo, tối ưu hóa cho ứng dụng học máy hiệu năng cao.

• Ứng dụng của mô hình rất đa dạng, bao gồm tạo nội dung, giao tiếp, tóm tắt văn bản, nghiên cứu xử lý ngôn ngữ tự nhiên và hỗ trợ học ngôn ngữ tương tác.

• Mô hình có thể tạo ra các định dạng văn bản sáng tạo như thơ, kịch bản, mã, bản sao tiếp thị và phản hồi chatbot.

• Tuy nhiên, hiệu suất của mô hình phụ thuộc vào sự đa dạng và chất lượng của dữ liệu đào tạo. Nó có thể tạo ra các phát biểu sự thật không chính xác hoặc lỗi thời khi xử lý các truy vấn phức tạp.

• Google đã thực hiện đánh giá nghiêm ngặt để giải quyết các vấn đề liên quan đến an toàn nội dung, tác hại đại diện và ghi nhớ dữ liệu đào tạo.

• Các biện pháp giảm thiểu rủi ro bao gồm kỹ thuật lọc để loại bỏ nội dung có hại, thực thi hướng dẫn an toàn nội dung và thiết lập khung minh bạch và trách nhiệm giải trình.

📌 Google ra mắt Gemma-2-JPN, mô hình AI 2,61 tỷ tham số cho tiếng Nhật. Mô hình mở này có khả năng đa dạng từ tạo nội dung đến nghiên cứu NLP, tương thích với TPUv5p. Google cũng chú trọng đánh giá và giảm thiểu rủi ro đạo đức.

https://www.marktechpost.com/2024/10/05/google-releases-gemma-2-jpn-a-2b-ai-model-fine-tuned-on-japanese-text/

Không có file đính kèm.

Nguồn tham khảo

184

AI mở-nguồn mở AI nhỏ OpenAI ChatGPT 2024-10-06 16:06:01

Molmo: Mô hình AI nhỏ có năng lực tương đương GPT-4o với ít dữ liệu hơn 1.000 lần

• Viện Allen for Artificial Intelligence (Ai2) vừa công bố dòng mô hình AI đa phương thức mã nguồn mở mới có tên Molmo.

• Molmo có kích thước nhỏ hơn 10 lần so với GPT-4o của OpenAI nhưng hiệu suất tương đương.

• Các mô hình Molmo có từ 1 tỷ đến 72 tỷ tham số, trong khi GPT-4o ước tính có hơn 1 nghìn tỷ tham số.

• Ai2 tập trung vào chất lượng dữ liệu thay vì số lượng. Họ sử dụng khoảng 700.000 hình ảnh và 1,3 triệu chú thích, ít hơn 1.000 lần so với các mô hình độc quyền.

• Thay vì viết chú thích, nhóm nghiên cứu yêu cầu người chú thích ghi âm mô tả bằng lời nói 60-90 giây cho mỗi hình ảnh, sau đó chuyển thành văn bản và chuẩn hóa.

• Mô hình lớn nhất Molmo 72B có hiệu suất tương đương hoặc vượt trội hơn các mô hình hàng đầu như GPT-4o, Claude 3.5 Sonnet và Gemini 1.5 Pro trên 11 tiêu chuẩn học thuật.

• Molmo có khả năng chỉ ra các đối tượng trong hình ảnh, hữu ích cho việc phát triển AI agent và robot.

• Molmo là mã nguồn mở với giấy phép Apache 2.0, cho phép các nhà phát triển sửa đổi và thương mại hóa sản phẩm với ít hạn chế.

• Mô hình lớn nhất của Molmo dựa trên Qwen2 72B của Alibaba Cloud, nhưng Ai2 công bố cả bộ dữ liệu và mã nguồn để tạo khả năng đa phương thức.

• Molmo nhắm đến các nhà nghiên cứu, nhà phát triển ứng dụng và những người không quen với các mô hình lớn.

• Các mô hình mã nguồn mở như Molmo đang trở thành đối thủ cạnh tranh thực sự cho các công ty đang huy động hàng tỷ đô la để phát triển sản phẩm AI.

📌 Molmo của Ai2 chứng minh mô hình AI nhỏ gọn, mã nguồn mở có thể cạnh tranh với các mô hình lớn độc quyền. Với kích thước nhỏ hơn 10 lần, sử dụng 1.000 lần ít dữ liệu hơn nhưng hiệu suất tương đương GPT-4o, Molmo mở ra tiềm năng phát triển AI hiệu quả và dễ tiếp cận hơn.

https://singularityhub.com/2024/10/04/these-mini-ai-models-match-openai-with-1000-times-less-data/

Không có file đính kèm.

Nguồn tham khảo

199

AI mở-nguồn mở AI cybersecurity 2024-10-06 09:08:34

Cách LLM nguồn mở giúp các đội bảo mật đi trước các mối đe dọa đang phát triển

• Các mô hình ngôn ngữ lớn (LLM) nguồn mở đang cách mạng hóa lĩnh vực bảo mật mạng, thúc đẩy đổi mới và giúp các công ty khởi nghiệp và nhà cung cấp đẩy nhanh thời gian ra thị trường.

• Các mô hình nguồn mở phổ biến trong bảo mật mạng bao gồm LLaMA 2 và LLaMA 3.2 của Meta, Falcon của Technology Innovation Institute, StableLM của Stability AI và các mô hình trên Hugging Face như BLOOM của BigScience.

• Các nhà cung cấp phần mềm bảo mật mạng đang phải đối mặt với thách thức về quản trị và cấp phép, đồng thời phải thiết kế kiến trúc có thể nhanh chóng thích ứng với các tính năng mới nhất của LLM nguồn mở.

• Theo Itamar Sher, CEO của Seal Security, LLM nguồn mở cho phép họ mở rộng quy mô vá lỗi bảo mật cho các thành phần nguồn mở theo cách mà các mô hình đóng không thể làm được.

• Gartner đặt LLM nguồn mở ở đỉnh của kỳ vọng thổi phồng trong Hype Cycle for Open-Source Software 2024, với mức độ thâm nhập thị trường từ 5% đến 20%.

• Các ưu điểm của LLM nguồn mở bao gồm khả năng tùy chỉnh, quy mô và linh hoạt, cộng tác cộng đồng và giảm sự phụ thuộc vào nhà cung cấp.

• Tuy nhiên, các thách thức bao gồm yêu cầu đầu tư cơ sở hạ tầng đáng kể và phức tạp về cấp phép.

• LLM nguồn mở đang được áp dụng để cải thiện phát hiện mối đe dọa và phản ứng trong thời gian thực.

• Gartner dự đoán các mô hình ngôn ngữ nhỏ hoặc LLM biên sẽ được áp dụng nhiều hơn trong các ứng dụng dành riêng cho lĩnh vực bảo mật mạng.

• Một mối quan tâm đáng kể là số lượng ngày càng tăng các cuộc tấn công chuỗi cung ứng phần mềm nhắm vào các thành phần nguồn mở.

• Seal Security đã được chỉ định là Cơ quan cấp số CVE (CNA), cho phép họ xác định, ghi lại và gán các lỗ hổng thông qua Chương trình CVE.

📌 LLM nguồn mở đang định hình lại bảo mật mạng bằng cách giảm sự phụ thuộc vào công nghệ độc quyền. Chúng mang lại khả năng tùy chỉnh, cộng tác cộng đồng và phát hiện mối đe dọa thời gian thực. Tuy nhiên, vẫn còn thách thức về đầu tư cơ sở hạ tầng và rủi ro chuỗi cung ứng phần mềm cần được giải quyết.

https://venturebeat.com/security/how-open-source-llms-enable-security-teams-to-stay-ahead-of-evolving-threats/

Không có file đính kèm.

Nguồn tham khảo

139

AI mở-nguồn mở 2024-10-05 08:21:15

Cuộc đua AI nguồn mở: Điều lãnh đạo doanh nghiệp cần biết để dẫn đầu

• Cuộc đua AI mô hình nền tảng hiện đang diễn ra gay gắt, với cộng đồng nguồn đóng chiếm ưu thế ban đầu, dẫn đầu bởi Anthropic và OpenAI.

• Sự rò rỉ mô hình Llama của Meta vào tháng 3/2023 đã tạo động lực cho cộng đồng nguồn mở. Trong năm tiếp theo, các cải tiến mô hình nguồn mở diễn ra với tốc độ nhanh hơn so với nguồn đóng, với các cải tiến lớn được phát hành mỗi vài ngày thay vì mỗi vài tháng.

• Cộng đồng nguồn mở đã nhanh chóng cải thiện mô hình Llama để đạt được hiệu suất ngang bằng với mô hình Gemini của Google, sử dụng kỹ thuật fine-tuning với chi phí thấp hơn nhiều.

• Lịch sử cho thấy đổi mới đạt tốc độ tối đa khi thông tin được chia sẻ. Ví dụ như phương pháp khoa học và cuộc chiến hệ điều hành Unix vs Linux trong những năm 1990.

• Nghiên cứu AI trước thời ChatGPT cũng dựa trên phương pháp nghiên cứu mở và cộng tác. Tuy nhiên, kể từ khi ChatGPT ra đời, phát triển AI chủ yếu diễn ra trong môi trường đóng.

• Khoảng cách chất lượng giữa mô hình nguồn đóng và nguồn mở đang thu hẹp nhanh chóng. Số lượt tải xuống mô hình Llama nguồn mở tăng 10 lần trong năm qua.

• Lợi ích của mô hình nguồn mở bao gồm: tối ưu hóa chi phí, sở hữu mô hình và cơ sở hạ tầng, fine-tuning dữ liệu độc quyền, cải thiện bảo mật.

• Kỹ thuật chưng cất mô hình giúp giảm chi phí tính toán bằng cách sử dụng mô hình "giáo viên" để huấn luyện mô hình "học sinh" nhỏ hơn nhưng hiệu suất tương đương.

• Lãnh đạo doanh nghiệp nên chuyển sang nguồn mở càng sớm càng tốt để tận dụng chi phí suy luận rẻ hơn và tránh chi phí chuyển đổi cao sau này.

• Tuy nhiên cần cân nhắc thách thức của nguồn mở như bảo trì và bảo mật. Có thể xây dựng đội ngũ machine learning nội bộ hoặc thuê nhà cung cấp dịch vụ để chưng cất và lưu trữ mô hình.

• Tương lai sẽ tập trung vào tối ưu hóa mô hình và giảm chi phí suy luận. Doanh nghiệp có thể sở hữu mô hình được huấn luyện nội bộ hoặc tận dụng dịch vụ chưng cất và lưu trữ mô hình để giảm thiểu chi phí ở quy mô lớn.

📌 AI nguồn mở đang thu hẹp khoảng cách với nguồn đóng, mang lại lợi ích về chi phí và kiểm soát. Lãnh đạo doanh nghiệp nên chuẩn bị chuyển đổi sớm, cân nhắc thách thức và tối ưu hóa mô hình để giảm chi phí suy luận. Tương lai thuộc về AI nguồn mở với khả năng tùy chỉnh và cộng đồng phát triển lớn.

https://www.forbes.com/councils/forbesbusinesscouncil/2024/10/03/the-bet-on-open-source-ai-what-business-leaders-should-know/

Không có file đính kèm.

Nguồn tham khảo

140

AI so sánh AI mở-nguồn mở 2024-10-02 07:54:19

Nvidia tung "bom tấn" AI: mô hình nguồn mở 72 tỷ tham số sẵn sàng đối đầu GPT-4

• Nvidia vừa công bố dòng mô hình ngôn ngữ đa phương thức lớn NVLM 1.0, dẫn đầu là NVLM-D-72B với 72 tỷ tham số.

• NVLM-D-72B thể hiện hiệu suất vượt trội trong các tác vụ thị giác và ngôn ngữ, cạnh tranh với các mô hình độc quyền hàng đầu như GPT-4.

• Mô hình này có khả năng xử lý đầu vào phức tạp bao gồm hình ảnh và văn bản, từ phân tích meme đến giải quyết các bài toán toán học.

• Đặc biệt, NVLM-D-72B cải thiện hiệu suất trên các tác vụ chỉ có văn bản sau khi được huấn luyện đa phương thức, tăng độ chính xác trung bình 4,3 điểm trên các tiêu chuẩn văn bản chính.

• Nvidia quyết định công khai trọng số mô hình và hứa hẹn sẽ phát hành mã huấn luyện, phá vỡ xu hướng giữ kín các hệ thống AI tiên tiến.

• Động thái này mang lại cho các nhà nghiên cứu và nhà phát triển quyền truy cập chưa từng có vào công nghệ AI tiên tiến.

• Cộng đồng AI đã phản ứng tích cực với việc phát hành này, với một nhà nghiên cứu AI nhận xét về khả năng của mô hình trong các đánh giá toán học và lập trình.

• Dự án NVLM cũng giới thiệu các thiết kế kiến trúc sáng tạo, bao gồm cách tiếp cận kết hợp các kỹ thuật xử lý đa phương thức khác nhau.

• Việc phát hành NVLM 1.0 có thể thúc đẩy nghiên cứu và phát triển AI trên toàn lĩnh vực, cho phép các tổ chức nhỏ hơn và các nhà nghiên cứu độc lập đóng góp đáng kể hơn vào sự tiến bộ của AI.

• Tuy nhiên, việc phát hành này cũng đặt ra những lo ngại về lạm dụng và các vấn đề đạo đức khi AI mạnh mẽ trở nên dễ tiếp cận hơn.

• Quyết định của Nvidia cũng đặt ra câu hỏi về tương lai của các mô hình kinh doanh AI, khi các mô hình tiên tiến trở nên miễn phí và có sẵn rộng rãi.

• Tác động thực sự của NVLM 1.0 sẽ được thể hiện trong những tháng và năm tới, có thể mở ra kỷ nguyên hợp tác và đổi mới chưa từng có trong AI.

📌 Nvidia đã tạo ra bước ngoặt trong ngành AI với việc phát hành mô hình nguồn mở NVLM 1.0 72 tỷ tham số. Mô hình này cạnh tranh với GPT-4 trong các tác vụ đa phương thức, mở ra cơ hội mới cho nghiên cứu AI và thách thức cấu trúc hiện tại của ngành công nghiệp AI.

https://venturebeat.com/ai/nvidia-just-dropped-a-bombshell-its-new-ai-model-is-open-massive-and-ready-to-rival-gpt-4/

Không có file đính kèm.

Nguồn tham khảo

180

AI benchmark AI cybersecurity AI mở-nguồn mở 2024-09-30 21:16:19

JailbreakBench: Công cụ đánh giá mở nguồn mới cho các cuộc tấn công jailbreak vào LLM

• JailbreakBench là một công cụ đánh giá mở nguồn mới được phát triển bởi các nhà nghiên cứu từ Đại học Pennsylvania, ETH Zurich, EPFL và Sony AI nhằm tiêu chuẩn hóa việc đánh giá các cuộc tấn công và phòng thủ jailbreak đối với mô hình ngôn ngữ lớn (LLM).

• Mục tiêu của JailbreakBench là cung cấp một mô hình toàn diện, dễ tiếp cận và có thể tái tạo để đánh giá bảo mật của LLM.

• JailbreakBench gồm 4 thành phần chính:
- Bộ sưu tập các prompt đối kháng (adversarial prompts) cập nhật liên tục
- Bộ dữ liệu gồm 100 hành vi khác nhau để thực hiện jailbreak, tuân thủ quy định sử dụng của OpenAI
- Khung đánh giá tiêu chuẩn hóa trên GitHub với các hàm tính điểm, prompt hệ thống, mẫu chat và mô hình mối đe dọa
- Bảng xếp hạng trên website chính thức để so sánh hiệu quả của các cuộc tấn công và phòng thủ jailbreak

• Công cụ này giải quyết vấn đề thiếu phương pháp tiêu chuẩn để đánh giá các cuộc tấn công jailbreak, giúp so sánh kết quả giữa các nghiên cứu khác nhau.

• Mặc dù có rủi ro về việc công khai các prompt đối kháng, nhưng nhóm nghiên cứu cho rằng lợi ích tổng thể vượt trội hơn. JailbreakBench giúp cộng đồng nghiên cứu hiểu sâu hơn về lỗ hổng của LLM và phát triển các biện pháp phòng thủ mạnh mẽ hơn.

• Mục tiêu cuối cùng là tạo ra các mô hình ngôn ngữ đáng tin cậy và an toàn hơn, đặc biệt khi chúng được sử dụng trong các lĩnh vực nhạy cảm hoặc có rủi ro cao.

• JailbreakBench đại diện cho một bước tiến quan trọng trong việc nâng cao độ tin cậy và an toàn của mô hình ngôn ngữ trước các mối đe dọa bảo mật ngày càng phức tạp.

• Bằng cách tiêu chuẩn hóa quy trình đánh giá, cung cấp quyền truy cập mở vào các prompt đối kháng và thúc đẩy khả năng tái tạo, JailbreakBench hứa hẹn sẽ thúc đẩy sự phát triển trong việc bảo vệ LLM khỏi các thao túng đối kháng.

📌 JailbreakBench là công cụ đánh giá mở nguồn mới giúp tiêu chuẩn hóa việc đánh giá tấn công jailbreak vào LLM. Với 4 thành phần chính và bảng xếp hạng công khai, nó hỗ trợ cộng đồng nghiên cứu hiểu sâu hơn về lỗ hổng LLM, phát triển phòng thủ mạnh mẽ và tạo ra mô hình ngôn ngữ an toàn hơn.

https://www.marktechpost.com/2024/09/29/jailbreakbench-an-open-sourced-benchmark-for-jailbreaking-large-language-models-llms/

Không có file đính kèm.

Nguồn tham khảo

179

AI nhỏ AI mở-nguồn mở 2024-09-26 23:45:07

Molmo: Gia đình mô hình ngôn ngữ đa phương thức nguồn mở mới từ Viện AI Allen

• Viện AI Allen và Đại học Washington giới thiệu gia đình mô hình ngôn ngữ-thị giác Molmo, một giải pháp hoàn toàn mở về trọng số và dữ liệu.

• Molmo không phụ thuộc vào dữ liệu tổng hợp từ hệ thống độc quyền, mà sử dụng bộ dữ liệu PixMo mới gồm hơn 712.000 hình ảnh và khoảng 1,3 triệu chú thích do con người tạo ra.

• PixMo sử dụng phương pháp sáng tạo yêu cầu người chú thích mô tả chi tiết mọi hình ảnh trong 60-90 giây, thu thập được dữ liệu mô tả chất lượng cao.

• Gia đình Molmo bao gồm các mô hình:
- MolmoE-1B: Sử dụng mô hình ngôn ngữ lớn OLMoE-1B-7B nguồn mở
- Molmo-7B-O: Sử dụng OLMo-7B-1024 nguồn mở
- Molmo-7B-D: Mô hình demo sử dụng Qwen2 7B
- Molmo-72B: Mô hình hiệu suất cao nhất, sử dụng Qwen2 72B

• Molmo-72B vượt trội nhiều hệ thống độc quyền hàng đầu như Gemini 1.5 và Claude 3.5 Sonnet trên 11 benchmark học thuật.

• Trong đánh giá của con người với 15.000 cặp hình ảnh-văn bản, Molmo-72B xếp thứ 2, chỉ sau GPT-4o.

• Molmo-72B đạt điểm cao nhất trong benchmark AndroidControl với độ chính xác 88,7% cho tác vụ cấp thấp và 69,0% cho tác vụ cấp cao.

• MolmoE-1B có hiệu suất gần bằng GPT-4V, là một mô hình nguồn mở hiệu quả và cạnh tranh.

• Molmo sử dụng pipeline đơn giản nhưng mạnh mẽ kết hợp bộ mã hóa thị giác được huấn luyện trước (dựa trên ViT-L/14 CLIP của OpenAI) với mô hình ngôn ngữ.

• Sự thành công của Molmo trong cả đánh giá học thuật và người dùng cho thấy tiềm năng của các mô hình VLM nguồn mở trong việc cạnh tranh và vượt qua các hệ thống độc quyền.

• Việc phát hành các mô hình Molmo cùng bộ dữ liệu PixMo mở đường cho đổi mới và hợp tác trong phát triển mô hình ngôn ngữ-thị giác trong tương lai.

📌 Molmo là gia đình mô hình ngôn ngữ đa phương thức nguồn mở mới từ Viện AI Allen, sử dụng dữ liệu PixMo do con người tạo ra. Molmo-72B vượt trội nhiều hệ thống độc quyền trên 11 benchmark, cho thấy tiềm năng của mô hình nguồn mở trong việc cạnh tranh với các hệ thống hàng đầu mà không cần dữ liệu tổng hợp.

https://www.marktechpost.com/2024/09/26/are-small-language-models-really-the-future-of-language-models-allen-institute-for-artificial-intelligence-ai2-releases-molmo-a-family-of-open-source-multimodal-language-models/

Không có file đính kèm.

Nguồn tham khảo

162

AI mở-nguồn mở AI nhỏ 2024-09-26 07:44:15

Meta tung ra llama 3.2: cuộc cách mạng ai nhẹ và đa năng cho thiết bị di động và ứng dụng thị giác

SEO contents:

1. Meta mô tả: Llama 3.2 ra mắt với các mô hình AI nhẹ 1B và 3B cho thiết bị di động, cùng mô hình thị giác 11B và 90B cho ứng dụng đa phương thức, mở ra tiềm năng AI ở cạnh biên và đa nền tảng.

2. Từ khóa meta: Llama 3.2, mô hình AI nhẹ, mô hình thị giác, AI cạnh biên, ứng dụng đa phương thức, Meta AI, nguồn mở

3. Tiêu đề SEO hấp dẫn: Meta tung ra llama 3.2: cuộc cách mạng ai nhẹ và đa năng cho thiết bị di động và ứng dụng thị giác

Tóm tắt chi tiết:

• Meta đã phát hành Llama 3.2, bộ mô hình AI nguồn mở mới bao gồm các mô hình thị giác lớn (11B và 90B) và các mô hình văn bản nhẹ (1B và 3B) cho thiết bị cạnh biên và di động.

• Các mô hình thị giác 11B và 90B được thiết kế cho các tác vụ phức tạp như hiểu tài liệu, định vị hình ảnh và tạo chú thích. Chúng vượt trội so với các mô hình đóng khác trong nhiều bài kiểm tra về hiểu hình ảnh.

• Mô hình văn bản nhẹ 1B và 3B tập trung vào ứng dụng AI cạnh biên, cung cấp hiệu suất tốt cho tóm tắt, làm theo hướng dẫn và viết lại prompt với dấu chân tính toán thấp.

• Tất cả các mô hình đều có độ dài ngữ cảnh token là 128.000, cải thiện đáng kể so với các phiên bản trước.

• Llama 3.2 sử dụng kiến trúc dựa trên bộ điều hợp cho mô hình thị giác, tích hợp bộ mã hóa hình ảnh với mô hình văn bản được đào tạo trước.

• Các mô hình được tối ưu hóa cho cả môi trường tại chỗ và đám mây, với sự hỗ trợ từ các đối tác công nghệ hàng đầu như AWS, Dell, Microsoft Azure, NVIDIA.

• Mô hình 1B đạt điểm 49,3 trên MMLU, trong khi mô hình 3B đạt 63,4. Mô hình thị giác đa phương thức 11B đạt 50,7 trên MMMU, còn mô hình 90B đạt 60,3.

• Các mô hình 1B và 3B được tích hợp đầy đủ với UnslothAI, cho phép tinh chỉnh nhanh hơn 2 lần, suy luận nhanh hơn 2 lần và sử dụng VRAM ít hơn 70%.

• Llama 3.2 sử dụng kỹ thuật cắt tỉa và chưng cất kiến thức để đạt được kích thước mô hình nhỏ trong khi vẫn duy trì hiệu suất cao.

• Các mô hình thị giác được đào tạo trên tập dữ liệu khổng lồ gồm 6 tỷ cặp hình ảnh-văn bản, trang bị cho chúng khả năng đa phương thức mạnh mẽ.

• Kiến trúc thị giác tiên tiến bao gồm các tính năng như chuẩn hóa lớp thông thường cho bộ mã hóa thị giác và bộ nhân cổng áp dụng cho các trạng thái ẩn.

📌 Llama 3.2 của Meta mang đến bước tiến quan trọng trong AI biên và mô hình thị giác. Với 4 biến thể từ 1B đến 90B, hỗ trợ ngữ cảnh 128K token và tích hợp UnslothAI, nó cung cấp giải pháp linh hoạt cho nhiều ứng dụng AI từ thiết bị di động đến đa phương thức phức tạp.

https://www.marktechpost.com/2024/09/25/llama-3-2-released-unlocking-ai-potential-with-1b-and-3b-lightweight-text-models-and-11b-and-90b-vision-models-for-edge-mobile-and-multimodal-ai-applications/

Không có file đính kèm.

Nguồn tham khảo

301

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-09-26 07:30:18

Meta ra mắt các mô hình Llama 3.2 hỗ trợ xử lý hình ảnh, bao gồm phiên bản 11B và 90B

• Meta vừa công bố phiên bản Llama 3.2 tại sự kiện Meta Connect 2024, bao gồm các mô hình đa phương thức mới có khả năng xử lý hình ảnh.

• Llama 3.2 11B và 90B là hai mô hình đa phương thức có thể phân tích biểu đồ, đồ thị, chú thích hình ảnh và xác định vị trí đối tượng trong ảnh. Ví dụ, chúng có thể trả lời câu hỏi về bản đồ công viên hoặc phân tích biểu đồ doanh thu công ty.

• Meta cũng giới thiệu công cụ an toàn Llama Guard Vision để phát hiện nội dung có hại trong văn bản và hình ảnh đầu vào hoặc đầu ra của mô hình.

• Các mô hình đa phương thức có thể được tải xuống và sử dụng trên nhiều nền tảng đám mây như Hugging Face, Microsoft Azure, Google Cloud và AWS. Meta cũng sử dụng chúng cho trợ lý AI trên WhatsApp, Instagram và Facebook.

• Tuy nhiên, Llama 3.2 11B và 90B không khả dụng tại châu Âu do lo ngại về môi trường quy định "khó đoán" của khu vực này. Meta đã bày tỏ quan ngại về Đạo luật AI của EU và các quy định trong GDPR liên quan đến đào tạo AI.

• Meta cũng ra mắt hai mô hình nhẹ chỉ xử lý văn bản là Llama 3.2 1B và 3B, được thiết kế để chạy trên điện thoại thông minh và các thiết bị biên. Chúng có thể thực hiện các tác vụ như tóm tắt và viết lại đoạn văn.

• Công ty giới thiệu bộ công cụ phát triển Llama Stack để tinh chỉnh tất cả các mô hình Llama 3.2. Các mô hình này có thể xử lý tối đa khoảng 100.000 từ cùng lúc.

• Meta tuyên bố các mô hình Llama đã được tải xuống hơn 350 triệu lần và đang được sử dụng bởi các doanh nghiệp lớn như Zoom, AT&T và Goldman Sachs.

• Mặc dù không hoàn toàn "mở", giấy phép của Meta vẫn hạn chế cách một số nhà phát triển có thể sử dụng chúng. Các nền tảng có hơn 700 triệu người dùng hàng tháng phải yêu cầu giấy phép đặc biệt.

• Meta đang đầu tư hàng tỷ đô la vào máy chủ, trung tâm dữ liệu và cơ sở hạ tầng mạng để đào tạo các mô hình trong tương lai, nhằm mục tiêu trở thành đồng nghĩa với AI tạo sinh.

📌 Meta đã công bố Llama 3.2 với các mô hình đa phương thức 11B và 90B có khả năng xử lý hình ảnh, cùng với các mô hình nhẹ 1B và 3B chỉ xử lý văn bản. Tuy nhiên, do lo ngại về quy định, các mô hình mới không khả dụng tại châu Âu. Meta tuyên bố Llama đã được tải xuống hơn 350 triệu lần, thể hiện tham vọng thống trị lĩnh vực AI tạo sinh của công ty.

https://techcrunch.com/2024/09/25/metas-llama-ai-models-now-support-images/

Không có file đính kèm.

Nguồn tham khảo

263

AI pháp lý-quản trị-chủ quyền AI mở-nguồn mở 2024-09-23 11:55:35

Ericsson, Spotify và SAP kêu gọi EU áp dụng cách tiếp cận quy định nhất quán hơn đối với AI

- Ericsson, Spotify và SAP đã ký một bức thư mở do Meta phối hợp kêu gọi EU có cách tiếp cận quy định nhất quán hơn về AI.
- Các công ty này lo ngại rằng nếu không thay đổi, châu Âu sẽ bỏ lỡ 2 yếu tố quan trọng trong đổi mới AI: phát triển mô hình AI nguồn mở và mô hình đa phương thức.
- Bức thư chỉ ra rằng quyết định quy định hiện tại đang trở nên phân mảnh và không thể đoán trước, dẫn đến sự không chắc chắn về loại dữ liệu có thể sử dụng để đào tạo các mô hình AI.
- Free trở thành nhà mạng đầu tiên tại Pháp cung cấp 5G SA trên toàn quốc với 6.950 trạm 3.5GHz, đồng thời ra mắt dịch vụ VoNR.
- A1 của Áo đã mua lại công ty Conexio Metro tại Serbia để cung cấp sản phẩm hội tụ trên mạng cáp quang của mình vào năm 2025.
- Broadband Forum đã khởi động dự án mới nhằm cung cấp độ trễ thấp trong mạng băng thông rộng tại nhà bằng công nghệ L4S.
- Công nghệ L4S sẽ giúp nhà cung cấp dịch vụ hỗ trợ các ứng dụng có yêu cầu cao về độ trễ và dung lượng cùng lúc mà không gây tắc nghẽn mạng.
- Cellnex tại Tây Ban Nha đang tăng cường phủ sóng 5G dọc bờ biển Barcelona để phục vụ cho cuộc đua thuyền America's Cup.
- Hệ thống anten mini phân tán sẽ cung cấp kết nối 5G cho 3.5km bờ biển từ bãi biển Sant Sebastià đến bãi biển Mar Bella.
- Tòa án chung EU đã giữ nguyên phần lớn mức phạt 242 triệu euro (270 triệu USD) đối với Qualcomm vì hành vi định giá predatory đối với Icera.

📌 Các công ty châu Âu như Ericsson và Spotify kêu gọi EU thay đổi quy định về AI để không bỏ lỡ cơ hội phát triển mô hình AI nguồn mở và đa phương thức. Free ra mắt 5G SA trên toàn quốc, trong khi A1 mở rộng dịch vụ tại Serbia.

https://www.lightreading.com/ai-machine-learning/eurobites-ericsson-and-friends-call-for-europe-to-adopt-new-regulatory-approach-to-ai

Không có file đính kèm.

Nguồn tham khảo

151

AI mở-nguồn mở 2024-09-20 11:08:27

Alibaba đã ra mắt hơn 100 mô hình AI nguồn mở mới và công cụ tạo video

- Alibaba đã phát hành hơn 100 mô hình AI nguồn mở mới, được gọi là Qwen 2.5, nhằm tăng cường khả năng công nghệ của mình.
- Các mô hình này được thiết kế cho nhiều ứng dụng khác nhau, từ ô tô đến trò chơi và nghiên cứu khoa học.
- Mục tiêu của Alibaba là tăng cường cạnh tranh với các đối thủ trong nước như Baidu và Huawei, cũng như các ông lớn Mỹ như Microsoft và OpenAI.
- Các mô hình AI của Alibaba có khả năng hiểu các yêu cầu và tạo ra văn bản cũng như hình ảnh dựa trên dữ liệu lớn.
- Việc phát hành mã nguồn mở cho phép các nhà nghiên cứu, học giả và doanh nghiệp trên toàn thế giới sử dụng các mô hình này để phát triển ứng dụng AI mà không cần phải tự đào tạo hệ thống của riêng mình.
- Tính đến thời điểm hiện tại, các mô hình nguồn mở của Alibaba đã được tải xuống 40 triệu lần.
- Alibaba cũng đã nâng cấp mô hình flagship Qwen-Max, không phải là mã nguồn mở, nhưng được cung cấp qua các sản phẩm điện toán đám mây cho doanh nghiệp.
- Qwen Max 2.5-Max đã vượt qua một số đối thủ như Llama của Meta và GPT-4 của OpenAI trong nhiều lĩnh vực như lý luận và hiểu ngôn ngữ.
- Công ty cũng đã giới thiệu một công cụ tạo video từ văn bản mới, cho phép người dùng nhập yêu cầu và AI sẽ tạo ra video dựa trên đó, tương tự như Sora của OpenAI.
- Eddie Wu, CEO của Alibaba, cho biết công ty đang đầu tư mạnh mẽ vào nghiên cứu và phát triển công nghệ AI cũng như xây dựng cơ sở hạ tầng toàn cầu.
- Dưới sự lãnh đạo của Wu, Alibaba đang cố gắng khôi phục tăng trưởng trong bối cảnh cạnh tranh gia tăng và người tiêu dùng Trung Quốc chậm lại.
- Alibaba là một trong những nhà cung cấp dịch vụ điện toán đám mây lớn nhất tại Trung Quốc nhưng vẫn kém xa Amazon và Microsoft ở thị trường quốc tế.
- Công ty hy vọng rằng những sản phẩm AI mới này sẽ thu hút khách hàng cả trong và ngoài Trung Quốc đăng ký dịch vụ đám mây của mình.

📌 Alibaba đã ra mắt hơn 100 mô hình AI nguồn mở với 40 triệu lượt tải xuống. Họ cũng giới thiệu công cụ tạo video từ văn bản mới. Sự đầu tư vào AI có thể giúp Alibaba tăng trưởng và cạnh tranh với các đối thủ lớn.

https://www.cnbc.com/2024/09/19/alibaba-launches-over-100-new-ai-models-releases-text-to-video-generation.html

Không có file đính kèm.

Nguồn tham khảo

101

AI mở-nguồn mở 2024-09-20 10:06:16

Qwen2.5 - cuộc cách mạng mô hình ngôn ngữ mã nguồn mở lớn nhất lịch sử!

- Qwen2.5 là phiên bản nâng cấp của dòng Qwen, bao gồm các mô hình chuyên biệt về lập trình (Qwen2.5-Coder) và toán học (Qwen2.5-Math). Các mô hình này có sẵn ở nhiều kích thước từ 0,5B đến 72B tham số.
- Các mô hình mã nguồn mở này, trừ các phiên bản 3B và 72B, được cấp phép dưới Apache 2.0, với hiệu suất được cải thiện đáng kể so với các phiên bản trước đó như Qwen2 và CodeQwen1.5.
- Qwen2.5 được huấn luyện trên tập dữ liệu khổng lồ với 18 nghìn tỷ token, cải thiện khả năng xử lý mã hóa (HumanEval 85+) và toán học (MATH 80+), hỗ trợ tạo văn bản dài (hơn 8K token) và dữ liệu có cấu trúc như bảng hoặc JSON.
- Các mô hình này còn hỗ trợ đa ngôn ngữ, với hơn 29 ngôn ngữ, bao gồm tiếng Anh, tiếng Trung, tiếng Pháp, tiếng Tây Ban Nha, và tiếng Việt.
- Qwen2.5-Coder được huấn luyện trên 5,5 nghìn tỷ token liên quan đến mã hóa, cho phép các mô hình nhỏ hơn cạnh tranh với các mô hình lớn hơn trong các bài kiểm tra lập trình.
- Qwen2.5-Math kết hợp các phương pháp suy luận nâng cao như Chain-of-Thought (CoT), Program-of-Thought (PoT), và Tool-Integrated Reasoning (TIR) để cải thiện hiệu suất trong toán học.
- Phiên bản Qwen2.5-72B đã được so sánh với các mô hình mã nguồn mở hàng đầu như Llama-3.1-70B và Mistral-Large-V2, cho thấy khả năng vượt trội ở các bài đánh giá hiệu suất.
- Qwen-Plus, mô hình API, được so sánh với các mô hình hàng đầu như GPT4-o và Claude-3.5-Sonnet, cho thấy sự cạnh tranh đáng kể trong hiệu suất nhưng vẫn còn những lĩnh vực cần cải thiện.
- Các phiên bản Qwen2.5-14B và Qwen2.5-32B mang lại sự cân bằng tối ưu giữa kích thước mô hình và khả năng, vượt qua các mô hình lớn hơn như Phi-3.5-MoE-Instruct.
- Xu hướng mới trong mô hình ngôn ngữ nhỏ (SLM) đang phát triển mạnh mẽ, với Qwen2.5-3B đạt hiệu suất ấn tượng chỉ với 3 tỷ tham số, cho thấy sự tối ưu hóa về kích thước và khả năng.
- Qwen2.5-Coder và Qwen2.5-Math tiếp tục vượt trội so với các mô hình mã nguồn mở khác trong lập trình và toán học, thậm chí ở quy mô nhỏ nhất như Qwen2.5-Math-1.5B-Instruct.
- Qwen2.5 hỗ trợ triển khai dễ dàng qua các nền tảng như Hugging Face, vLLM và Ollama, cùng với việc tích hợp khả năng gọi công cụ tự động qua API.

📌 Qwen2.5 là bước tiến lớn trong việc phát triển mô hình ngôn ngữ lớn mã nguồn mở, với khả năng cải thiện đáng kể trong lập trình và toán học. Hỗ trợ đa ngôn ngữ, tích hợp công cụ, và tối ưu hóa hiệu suất trên các mô hình nhỏ, Qwen2.5 mở ra nhiều cơ hội mới trong AI.

https://qwenlm.github.io/blog/qwen2.5/

Không có file đính kèm.

Nguồn tham khảo

179

AI mở-nguồn mở AI so sánh 2024-09-18 06:52:18

SambaNova thách thức OpenaAI o1 với demo Llama 3.1 siêu tốc trên Huggingface

• SambaNova Systems vừa ra mắt demo mới trên Hugging Face, sử dụng mô hình Llama 3.1 Instruct của Meta, nhằm cạnh tranh trực tiếp với mô hình o1 của OpenAI.

• Demo cho phép các nhà phát triển tương tác với mô hình Llama 3.1 405B, đạt tốc độ 129 token/giây, thể hiện khả năng xử lý AI tốc độ cao.

• SambaNova sử dụng chip AI SN40L độc quyền, được thiết kế đặc biệt cho việc tạo token tốc độ cao, quan trọng cho các ứng dụng doanh nghiệp đòi hỏi phản hồi nhanh.

• Trong các benchmark ban đầu, demo chạy trên cơ sở hạ tầng của SambaNova đạt 405 token/giây cho mô hình Llama 3.1 70B, đứng thứ 2 về tốc độ cung cấp mô hình Llama, chỉ sau Cerebras.

• Demo duy trì độ chính xác cao trong khi đạt tốc độ ấn tượng, sử dụng độ chính xác dấu phẩy động 16-bit, phù hợp cho các ngành như y tế và tài chính.

• Việc sử dụng mô hình nguồn mở Llama 3.1 của Meta đánh dấu sự thay đổi đáng kể trong lĩnh vực AI, mang lại tính minh bạch và linh hoạt cho các nhà phát triển.

• Kiến trúc dataflow có thể tái cấu hình của SambaNova tối ưu hóa phân bổ tài nguyên qua các lớp mạng neural, cho phép cải thiện hiệu suất liên tục thông qua cập nhật phần mềm.

• Khả năng chuyển đổi giữa các mô hình, tự động hóa quy trình làm việc và tinh chỉnh đầu ra AI với độ trễ tối thiểu là một bước đột phá cho doanh nghiệp.

• SambaNova đang định vị mình như một giải pháp thay thế hàng đầu trong thị trường cơ sở hạ tầng AI đang phát triển mạnh mẽ.

• Sự ra mắt này cho thấy cuộc chiến giành vị thế thống trị cơ sở hạ tầng AI vẫn chưa kết thúc, và SambaNova đã khẳng định vị thế cạnh tranh của mình.

📌 SambaNova thách thức OpenAI với demo Llama 3.1 đạt 405 token/giây trên HuggingFace. Sử dụng chip SN40L, demo cân bằng tốc độ và độ chính xác, mở ra cơ hội mới cho AI doanh nghiệp nguồn mở, cạnh tranh trực tiếp với các ông lớn trong ngành.

https://venturebeat.com/ai/sambanova-challenges-openais-o1-model-with-llama-3-1-powered-demo-on-huggingface/

Không có file đính kèm.

Nguồn tham khảo

147

AI mở-nguồn mở 2024-09-16 13:54:46

XVERSE-MoE-A36B: thiết lập tiêu chuẩn mới trong kiến trúc Mixture-of-Experts

- XVERSE Technology đã công bố mô hình ngôn ngữ XVERSE-MoE-A36B, một bước tiến lớn trong lĩnh vực AI với khả năng đa ngôn ngữ.
- Mô hình này sử dụng kiến trúc Mixture-of-Experts (MoE) với tổng số tham số lên tới 255 tỷ, trong đó 36 tỷ tham số được kích hoạt khi sử dụng.
- Kiến trúc MoE của XVERSE-MoE-A36B cho phép tối ưu hóa tài nguyên tính toán, nhờ vào cơ chế kích hoạt chọn lọc các chuyên gia.
- Mô hình này hỗ trợ hơn 40 ngôn ngữ, trong đó chú trọng vào tiếng Trung và tiếng Anh, giúp cải thiện hiệu suất ngôn ngữ.
- XVERSE-MoE-A36B sử dụng các tỷ lệ mẫu chính xác trong quá trình huấn luyện để đạt được kết quả xuất sắc trong các ngôn ngữ chính.
- Chiến lược huấn luyện của mô hình bao gồm cơ chế chuyển đổi dữ liệu động, giúp cập nhật liên tục các dữ liệu chất lượng cao.
- Mô hình cũng điều chỉnh lịch trình tốc độ học để nhanh chóng học từ dữ liệu mới mà không bị quá khớp.
- XVERSE Technology đã giải quyết các thách thức tính toán bằng cách sử dụng các chiến lược tính toán chồng chéo và kỹ thuật CPU-Offload.
- Mô hình đã được thử nghiệm trên nhiều chuẩn mực nổi tiếng như MMLU, C-Eval, và GSM8K, đạt được điểm số cao trong các bài kiểm tra.
- XVERSE-MoE-A36B có khả năng ứng dụng rộng rãi trong các lĩnh vực như hiểu ngôn ngữ tự nhiên, các tác nhân giao tiếp AI, và các lĩnh vực chuyên sâu như pháp lý và y tế.
- XVERSE Technology nhấn mạnh tầm quan trọng của việc sử dụng mô hình một cách có trách nhiệm, tránh phát tán nội dung độc hại hoặc thiên lệch.
- Công ty khuyến cáo người dùng nên thực hiện các bài kiểm tra an toàn trước khi triển khai mô hình trong các ứng dụng nhạy cảm.

📌 Mô hình XVERSE-MoE-A36B với 255 tỷ tham số và khả năng đa ngôn ngữ đã thiết lập tiêu chuẩn mới trong AI. Nó đạt điểm số xuất sắc trên nhiều chuẩn mực và hứa hẹn ứng dụng rộng rãi trong các lĩnh vực khác nhau, nhưng cần sử dụng một cách có trách nhiệm.

https://www.marktechpost.com/2024/09/15/xverse-moe-a36b-released-by-xverse-technology-a-revolutionary-multilingual-ai-model-setting-new-standards-in-mixture-of-experts-architecture-and-large-scale-language-processing/

Không có file đính kèm.

Nguồn tham khảo

144

AI mở-nguồn mở 2024-09-15 05:14:15

Cuộc chiến định nghĩa AI mã nguồn mở đã bắt đầu

• Open Source Initiative (OSI) đang tiến gần hơn đến việc đưa ra định nghĩa chính thức về AI nguồn mở, dự kiến công bố vào cuối tháng 10 tại sự kiện All Things Open.

• Nhiều công ty như Meta đã tuyên bố các mô hình AI của họ là nguồn mở, nhưng thực tế không phải vậy. OSI và các đối tác đang nỗ lực tạo ra một định nghĩa toàn diện về AI nguồn mở.

• Bản dự thảo mới nhất (v. 0.0.9) của Định nghĩa AI Nguồn mở đã có những thay đổi đáng kể:
- Dữ liệu huấn luyện được coi là có lợi nhưng không bắt buộc để sửa đổi hệ thống AI.
- Phân loại dữ liệu huấn luyện thành dữ liệu mở, công khai và không thể chia sẻ.
- Tách riêng danh sách kiểm tra đánh giá giấy phép khỏi tài liệu định nghĩa chính.

• Khung đánh giá mức độ mở của mô hình (MOF) được đề xuất với 3 cấp độ mở, từ hoàn toàn mở (cấp 1) đến một phần mở (cấp 2 và 3).

• Nhiều nhà lãnh đạo nguồn mở phản đối mạnh mẽ định nghĩa mới:
- Cho rằng hệ thống chỉ có thể xây dựng trên dữ liệu độc quyền thì không thể gọi là nguồn mở.
- Cáo buộc định nghĩa mới chứa quá nhiều từ ngữ mơ hồ, tạo kẽ hở cho các hệ thống AI độc quyền tự nhận là nguồn mở.
- Cho rằng định nghĩa mới làm loãng ý nghĩa thực sự của nguồn mở.

• Một số ý kiến cho rằng định nghĩa hiện tại không đảm bảo quyền tự do chạy, sao chép, phân phối, nghiên cứu, thay đổi và cải tiến hệ thống AI.

• Stefano Maffulli, Giám đốc điều hành OSI, cho rằng cách tiếp cận thuần túy lý tưởng sẽ không khả thi vì không ai có thể đáp ứng được định nghĩa quá nghiêm ngặt.

• Cuộc tranh luận này có thể kéo dài nhiều năm, và có nguy cơ trở thành một cuộc tranh cãi kỹ thuật vô nghĩa trong khi AI vẫn phát triển mà không cần tham chiếu đến "nguồn mở" ngoại trừ như một thuật ngữ marketing.

📌 Cuộc tranh cãi về định nghĩa AI nguồn mở đang chia rẽ sâu sắc cộng đồng phần mềm tự do. Với 3 cấp độ mở trong MOF và sự phản đối từ nhiều nhà lãnh đạo, tương lai của AI nguồn mở vẫn còn nhiều bất định. Cuộc tranh luận có thể kéo dài nhiều năm tới.

https://www.theregister.com/2024/09/14/opinion_column_osi/

Không có file đính kèm.

Nguồn tham khảo

151

AI mở-nguồn mở AI so sánh 2024-09-15 04:46:09

Deepseek v2.5: "kẻ hủy diệt" nguồn mở đánh bại các gã khổng lồ AI

• DeepSeek v2.5 là mô hình ngôn ngữ lớn (LLM) nguồn mở tiên tiến, kết hợp giữa DeepSeek phiên bản 2 0628 và DeepSeek Coder phiên bản 2 0724.

• Mô hình này vượt trội hơn các đối thủ hàng đầu như GPT-4 Turbo, Claude 3 và Google Gemini trong nhiều bài kiểm tra chuẩn.

• DeepSeek v2.5 nổi bật với khả năng viết nâng cao, tuân thủ hướng dẫn tốt hơn và phù hợp với sở thích của con người.

• Người dùng có thể truy cập thông qua giao diện web và API, với giá cạnh tranh 0,14 USD/triệu token đầu vào và 0,28 USD/triệu token đầu ra.

• Mô hình cung cấp các tùy chọn cài đặt linh hoạt: triển khai cục bộ hoặc truy cập dựa trên đám mây.

• Tính năng artifact cho phép tạo ra các hình ảnh trực quan từ các lời nhắc.

• Đánh giá nội bộ cho thấy cải thiện đáng kể về tỷ lệ thắng so với các mô hình khác.

• DeepSeek v2.5 có ứng dụng đa dạng: lập trình, suy luận toán học, viết sáng tạo, lý luận logic và đạo đức.

• Người dùng có thể truy cập miễn phí bằng cách đăng ký tài khoản email.

• Mô hình đã được kiểm tra kỹ lưỡng về hiệu suất trong nhiều tác vụ khác nhau.

• DeepSeek v2.5 là giải pháp toàn diện cho các tác vụ đa dạng, tích hợp khả năng lập trình trong mô hình cơ sở.

• Nó vượt trội trong nhiều lĩnh vực như:
- Lập trình: viết thành công các hàm Python và tạo mã SVG
- Suy luận toán học: giải chính xác các bài toán nhiều bước
- Viết sáng tạo: tạo ra các câu chuyện ngắn mạch lạc và hấp dẫn
- Lý luận logic và đạo đức: xử lý hiệu quả các lời nhắc phức tạp
- Trí tuệ cảm xúc: đưa ra phản hồi đồng cảm và chính xác

• DeepSeek v2.5 cung cấp tính năng gọi hàm và đầu ra JSON thông qua API, giúp dễ dàng tích hợp vào các ứng dụng.

• Người dùng có thể cài đặt cục bộ bằng LM Studio hoặc truy cập thông qua trò chuyện trên trình duyệt web.

• Là một giải pháp nguồn mở, DeepSeek v2.5 cung cấp tính linh hoạt và tùy chỉnh cần thiết để thích ứng với nhiều trường hợp sử dụng và quy trình làm việc khác nhau.

📌 DeepSeek v2.5 là mô hình ngôn ngữ nguồn mở vượt trội, đánh bại các đối thủ lớn trong nhiều bài kiểm tra. Với khả năng đa dạng từ lập trình đến sáng tạo, cùng tính linh hoạt và chi phí hợp lý, nó hứa hẹn trở thành công cụ AI mạnh mẽ cho nhiều ứng dụng.

https://www.geeky-gadgets.com/?p=437784

Không có file đính kèm.

Nguồn tham khảo

190

AI data AI models AI mở-nguồn mở 2024-09-14 07:45:32

DataGemma: Mô hình AI mới của Google giải quyết vấn đề ảo giác bằng dữ liệu thực tế từ Data Commons

• Google giới thiệu DataGemma - mô hình AI nguồn mở đầu tiên được thiết kế để giải quyết vấn đề ảo giác của các mô hình ngôn ngữ lớn (LLM) bằng cách kết nối chúng với dữ liệu thống kê thực tế từ Data Commons.

• Data Commons là một đồ thị kiến thức công khai chứa hơn 240 tỷ điểm dữ liệu từ các tổ chức uy tín như Liên Hợp Quốc, WHO, CDC và các Cục Thống kê.

• DataGemma sử dụng hai phương pháp chính để nâng cao độ chính xác của LLM:

1. RIG (Tạo sinh được xen kẽ bởi truy xuất): Chủ động truy vấn nguồn đáng tin cậy và kiểm tra thông tin với Data Commons. Khi được yêu cầu tạo phản hồi, mô hình được lập trình để xác định các trường hợp dữ liệu thống kê và truy xuất câu trả lời từ Data Commons.

2. RAG (Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài): Cho phép mô hình ngôn ngữ kết hợp thông tin liên quan ngoài dữ liệu huấn luyện. DataGemma truy xuất thông tin ngữ cảnh liên quan từ Data Commons trước khi mô hình bắt đầu tạo phản hồi.

• Kết quả sơ bộ cho thấy cải thiện đáng kể về độ chính xác của mô hình ngôn ngữ khi xử lý các sự kiện số học, giảm thiểu ảo giác cho người dùng.

• Google đang tiếp tục nghiên cứu và cam kết hoàn thiện các phương pháp này, với mục tiêu cuối cùng là tích hợp chức năng nâng cao này vào cả mô hình Gemma và Gemini.

• Bằng cách chia sẻ nghiên cứu và công khai mô hình DataGemma, Google hy vọng thúc đẩy việc áp dụng rộng rãi hơn các kỹ thuật dựa trên Data Commons để làm nền tảng cho LLM trong dữ liệu thực tế.

• Các nhà nghiên cứu và nhà phát triển có thể bắt đầu với DataGemma bằng cách sử dụng các notebook khởi động nhanh cho cả phương pháp RIG và RAG.

📌 DataGemma là mô hình AI nguồn mở đầu tiên kết nối LLM với 240 tỷ điểm dữ liệu thực tế từ Data Commons. Sử dụng phương pháp RIG và RAG, DataGemma giúp giảm ảo giác AI và nâng cao độ chính xác khi xử lý dữ liệu số học, hướng tới tương lai AI đáng tin cậy hơn.

https://blog.google/technology/ai/google-datagemma-ai-llm/

Không có file đính kèm.

Nguồn tham khảo

162

AI nhỏ AI mở-nguồn mở 2024-09-12 07:34:36

Mistral ra mắt Pixtral 12B - mô hình đa phương thức xử lý cả hình ảnh và văn bản

• Mistral, startup AI của Pháp, vừa phát hành Pixtral 12B - mô hình đa phương thức đầu tiên của họ có khả năng xử lý cả hình ảnh và văn bản.

• Pixtral 12B có 12 tỷ tham số, kích thước khoảng 24GB. Số lượng tham số thường tương ứng với khả năng giải quyết vấn đề của mô hình.

• Mô hình này được xây dựng dựa trên Nemo 12B - một trong những mô hình văn bản của Mistral.

• Pixtral 12B có thể trả lời câu hỏi về số lượng hình ảnh tùy ý với kích thước tùy ý, dựa trên URL hoặc hình ảnh được mã hóa bằng base64.

• Các khả năng dự kiến của Pixtral 12B bao gồm chú thích hình ảnh và đếm số lượng đối tượng trong ảnh, tương tự như các mô hình đa phương thức khác như Claude của Anthropic và GPT-4 của OpenAI.

• Mô hình có sẵn để tải xuống thông qua liên kết torrent trên GitHub và nền tảng phát triển AI Hugging Face.

• Pixtral 12B được cấp phép Apache 2.0, cho phép tải xuống, tinh chỉnh và sử dụng không hạn chế.

• Chưa có bản demo web hoạt động tại thời điểm công bố. Sophia Yang, Trưởng bộ phận quan hệ nhà phát triển của Mistral, cho biết Pixtral 12B sẽ sớm có mặt trên nền tảng chatbot và API của Mistral là Le Chat và Le Plateforme.

• Chưa rõ Mistral đã sử dụng dữ liệu hình ảnh nào để phát triển Pixtral 12B.

• Hầu hết các mô hình AI tạo sinh, bao gồm cả các mô hình khác của Mistral, được đào tạo trên lượng lớn dữ liệu công khai từ internet, thường có bản quyền.

• Một số nhà cung cấp mô hình cho rằng quyền "sử dụng hợp lý" cho phép họ thu thập bất kỳ dữ liệu công khai nào, nhưng nhiều chủ sở hữu bản quyền không đồng ý và đã kiện các nhà cung cấp lớn hơn như OpenAI và Midjourney.

• Pixtral 12B ra mắt sau khi Mistral đóng vòng gọi vốn 645 triệu USD do General Catalyst dẫn đầu, định giá công ty ở mức 6 tỷ USD.

• Mistral, được thành lập hơn một năm trước và có Microsoft là cổ đông thiểu số, được coi là câu trả lời của châu Âu cho OpenAI.

• Chiến lược của Mistral bao gồm phát hành các mô hình "mở" miễn phí, tính phí cho các phiên bản quản lý của những mô hình đó và cung cấp dịch vụ tư vấn cho khách hàng doanh nghiệp.

📌 Mistral ra mắt Pixtral 12B - mô hình đa phương thức 12 tỷ tham số xử lý hình ảnh và văn bản. Được cấp phép Apache 2.0, mô hình 24GB này dựa trên Nemo 12B, có thể tải xuống và sử dụng tự do. Đây là bước tiến quan trọng sau khi Mistral gọi vốn 645 triệu USD, định giá 6 tỷ USD.

https://techcrunch.com/2024/09/11/mistral-releases-pixtral-its-first-multimodal-model/

Không có file đính kèm.

Nguồn tham khảo

137

AI mở-nguồn mở 2024-09-12 06:56:58

LLaMA-Omni: AI tạo sinh nguồn mở Trung Quốc cạnh tranh với Siri và Alexa

• Các nhà nghiên cứu tại Viện Hàn lâm Khoa học Trung Quốc đã phát triển một mô hình AI có tên LLaMA-Omni, hứa hẹn thay đổi cách chúng ta tương tác với trợ lý kỹ thuật số.

• LLaMA-Omni được xây dựng dựa trên mô hình nguồn mở Llama 3.1 8B Instruct của Meta, có khả năng xử lý hướng dẫn bằng giọng nói và tạo ra phản hồi đồng thời bằng văn bản và giọng nói.

• Hệ thống này có độ trễ thấp ấn tượng chỉ 226 mili giây, tương đương với tốc độ hội thoại của con người.

• LLaMA-Omni có thể được huấn luyện trong vòng chưa đầy 3 ngày chỉ với 4 GPU, tiết kiệm đáng kể tài nguyên so với các hệ thống tiên tiến khác.

• Công nghệ này mở ra cơ hội cho các công ty nhỏ và nhà nghiên cứu trong lĩnh vực AI giọng nói, vốn đang bị thống trị bởi các gã khổng lồ công nghệ.

• Ứng dụng tiềm năng bao gồm cải thiện dịch vụ khách hàng, tương tác bệnh nhân trong y tế, và giáo dục cá nhân hóa.

• Tác động tài chính có thể rất lớn, với khả năng thúc đẩy làn sóng đổi mới và cạnh tranh mới trong thị trường AI.

• Nhà đầu tư có thể quan tâm đến các công ty ứng dụng công nghệ này do tiềm năng giảm chi phí và thời gian phát triển sản phẩm AI giọng nói.

• Thách thức hiện tại bao gồm giới hạn ngôn ngữ tiếng Anh và chất lượng giọng nói tổng hợp chưa tự nhiên như các hệ thống thương mại hàng đầu.

• Vấn đề bảo mật cũng đáng quan ngại khi các hệ thống tương tác bằng giọng nói thường yêu cầu xử lý dữ liệu âm thanh nhạy cảm.

• Việc mã nguồn mở cả mô hình và mã nguồn có thể thúc đẩy cải tiến nhanh chóng từ cộng đồng AI toàn cầu.

• LLaMA-Omni đại diện cho bước tiến quan trọng hướng tới giao diện giọng nói tự nhiên hơn cho trợ lý AI và chatbot.

• Công nghệ này có thể dẫn đến sự phổ biến của các ứng dụng đa dạng phù hợp với các ngành, ngôn ngữ và bối cảnh văn hóa cụ thể.

• Kỷ nguyên AI thực sự có khả năng hội thoại đang đến gần hơn dự kiến, mở ra cơ hội cạnh tranh cho các công ty tích hợp thành công công nghệ này.

📌 LLaMA-Omni, mô hình AI nguồn mở từ Trung Quốc, hứa hẹn cách mạng hóa tương tác giọng nói với độ trễ chỉ 226ms. Công nghệ này mở ra cơ hội cho các startup AI cạnh tranh với gã khổng lồ công nghệ, có thể áp dụng trong nhiều lĩnh vực từ dịch vụ khách hàng đến y tế và giáo dục.

https://venturebeat.com/ai/llama-omni-the-open-source-ai-thats-giving-siri-and-alexa-a-run-for-their-money/

Không có file đính kèm.

Nguồn tham khảo

142

AI mở-nguồn mở AI doanh nghiệp 2024-09-11 14:31:44

Arcee AI vừa ra mắt SuperNova: mô hình ngôn ngữ tùy chỉnh cho doanh nghiệp

- Arcee AI đã công bố SuperNova, một mô hình ngôn ngữ với 70 tỷ tham số, được thiết kế đặc biệt cho việc triển khai trong các doanh nghiệp.
- SuperNova cung cấp khả năng tuân thủ hướng dẫn nâng cao và tùy chỉnh toàn diện, nhằm giải quyết các vấn đề về bảo mật dữ liệu và sự ổn định của mô hình.
- Mô hình này được xây dựng trên kiến trúc Llama-3.1-70B-Instruct của Meta, và sử dụng quy trình sau đào tạo độc quyền để cải thiện khả năng tuân thủ hướng dẫn.
- Quá trình phát triển SuperNova bao gồm việc đào tạo ba mô hình cùng lúc, với một mô hình được tinh chế từ Llama 405B, một mô hình sử dụng dữ liệu từ kho dữ liệu EvolKit, và một mô hình khác thực hiện DPO trên Llama 3.
- SuperNova được triển khai trong môi trường đám mây riêng của doanh nghiệp, bắt đầu từ AWS Marketplace, với kế hoạch mở rộng sang Google và Azure.
- Mô hình này cho phép doanh nghiệp kiểm soát hoàn toàn tài sản AI của mình, giúp bảo vệ dữ liệu nhạy cảm và tránh các thay đổi không mong muốn từ dịch vụ API.
- SuperNova có khả năng được tinh chỉnh và đào tạo lại trong môi trường doanh nghiệp, cho phép cải thiện liên tục dựa trên tương tác với người dùng.
- Arcee AI cũng cung cấp một API miễn phí cho việc thử nghiệm và đánh giá, cùng với phiên bản SuperNova-Lite với 8 tỷ tham số, hữu ích cho các nhà phát triển trong môi trường hạn chế tài nguyên.
- Arcee cam kết tính minh bạch và khuyến khích các bên thứ ba đánh giá hiệu suất của SuperNova, đặc biệt trong lĩnh vực lý thuyết toán học.
- Việc ra mắt SuperNova diễn ra trong bối cảnh các doanh nghiệp đang xem xét lại chiến lược AI của mình, với sự quan tâm ngày càng tăng đối với các mô hình có thể triển khai và tùy chỉnh.

📌 SuperNova của Arcee AI là mô hình ngôn ngữ 70 tỷ tham số, cung cấp khả năng tùy chỉnh cao và bảo mật dữ liệu cho doanh nghiệp. Mô hình này có thể được triển khai trong môi trường đám mây riêng, cho phép cải thiện liên tục và kiểm soát hoàn toàn tài sản AI.

https://venturebeat.com/ai/arcee-ai-unveils-supernova-a-customizable-instruction-adherent-model-for-enterprises/

Không có file đính kèm.

Nguồn tham khảo

176

AI mở-nguồn mở 2024-09-11 07:57:27

AI nguồn mở: cuộc chiến định nghĩa và tương lai bất định

• Cộng đồng công nghệ đang gặp khó khăn trong việc định nghĩa AI nguồn mở do sự phức tạp chưa từng có của công nghệ này.

• Meta đang thắng thế trong câu chuyện AI nguồn mở bằng cách sử dụng thuật ngữ này để quảng bá một mô hình ngôn ngữ lớn (LLM) không thực sự nguồn mở.

• AI tạo ra một nghịch lý cho cộng đồng nguồn mở: một bên là những người theo chủ nghĩa thực dụng, bên kia là những người muốn AI nguồn mở phải trung thành với các nguyên tắc gốc.

• Ý nghĩa của "nguồn mở" đang bị giảm sút khi các nhà cung cấp LLM AI tự gọi dịch vụ của họ là nguồn mở dù có đúng hay không.

• Vấn đề quản lý ngôn ngữ định nghĩa nguồn mở đang cho phép việc khai thác thuật ngữ này, trong khi các bên đều đưa ra phiên bản sự thật riêng của mình.

• Open Source Initiative (OSI) đang nỗ lực xây dựng một định nghĩa, nhưng liệu nó có đủ uy tín và được cộng đồng ủng hộ hay không vẫn là một câu hỏi mở.

• Ashley Williams, người sáng lập Axo, cho rằng nguồn mở đã bị trôi dạt về mặt ngôn ngữ một phần do thiếu sự quản lý ngôn ngữ định nghĩa nó.

• Ý nghĩa của nguồn mở đã thay đổi qua thời gian, từ cách để các nhà phát triển tạo phần mềm họ có thể sửa đổi, đến việc phục vụ lợi ích thương mại và giảm chi phí phát triển công nghệ.

• Stefano Maffulli, giám đốc điều hành OSI, chỉ ra thách thức khi sử dụng thuật ngữ "AI nguồn mở" vì không có "nguồn" thực sự trong đó.

• Việc Liên minh Châu Âu tuyên bố các hệ thống AI nguồn mở có lợi thế đặc biệt càng thúc đẩy các công ty như Meta gắn mình với thuật ngữ này.

• OSI đã đăng tải bản dự thảo định nghĩa để lấy ý kiến, nhưng nó vẫn đang gặp nhiều tranh cãi.

• Amanda Brock từ OpenUK cho rằng việc có một định nghĩa riêng cho AI nguồn mở có thể gây nhầm lẫn và làm suy yếu bản chất của phần mềm nguồn mở.

• Tranh luận xoay quanh việc liệu dữ liệu huấn luyện có nên được coi là yêu cầu bắt buộc hay chỉ là lợi ích bổ sung của AI nguồn mở.

• Một số chuyên gia cho rằng cần có một "phổ mở" thay vì chỉ phân loại nhị phân "nguồn mở hay không".

• Allison Randall từ Software Freedom Conservancy nhấn mạnh tầm quan trọng của việc duy trì một định nghĩa rõ ràng và đầy tham vọng về AI nguồn mở.

📌 AI nguồn mở đang đối mặt với thách thức định nghĩa chưa từng có. Tranh cãi xoay quanh vai trò của dữ liệu huấn luyện, quyền sở hữu ngôn ngữ và mức độ mở cần thiết. Cộng đồng đang tìm kiếm sự cân bằng giữa tính thực dụng và lý tưởng, trong khi các công ty lớn như Meta đang định hình cuộc thảo luận.

https://thenewstack.io/why-open-source-ai-has-no-meaning/

Không có file đính kèm.

Nguồn tham khảo

230

AI mở-nguồn mở 2024-09-11 07:54:19

DeepSeek-V2.5 trở thành mô hình AI nguồn mở hàng đầu mới

• DeepSeek, công ty con AI của quỹ đầu cơ High-Flyer Capital Management (Trung Quốc), vừa ra mắt mô hình DeepSeek-V2.5 vào ngày 6/9/2024.

• DeepSeek-V2.5 kết hợp khả năng xử lý ngôn ngữ tổng quát và lập trình trong một mô hình duy nhất, là phiên bản nâng cấp từ DeepSeek-V2-0628 và DeepSeek-Coder-V2-0724.

• Mô hình này hiện đã có mặt trên Hugging Face, cho phép truy cập qua web và API.

• Theo đánh giá của các nhà nghiên cứu độc lập, DeepSeek-V2.5 được coi là mô hình ngôn ngữ lớn (LLM) tiên tiến nhất hiện có trong lĩnh vực nguồn mở.

• DeepSeek-V2.5 vượt trội trong nhiều tiêu chuẩn đánh giá quan trọng:
- AlpacaEval 2.0: Độ chính xác tổng thể 50,5 (so với 46,6 của DeepSeek-V2-0628 và 44,5 của DeepSeek-Coder-V2-0724)
- ArenaHard: Độ chính xác 76,2 (so với 68,3 và 66,3 của các phiên bản trước)
- HumanEval Python: Đạt điểm 89, thể hiện khả năng lập trình vượt trội

• Mô hình này còn vượt qua GPT-4o mini và ChatGPT-4o-latest trong đánh giá tiếng Trung nội bộ.

• Theo Shin Megami Boson, một chuyên gia AI, DeepSeek-V2.5 vượt trội hơn Meta's Llama 3-70B Instruct và Llama 3.1-405B Instruct trong bài kiểm tra riêng mô phỏng Graduate-Level Google-Proof Q&A Benchmark (GPQA).

• DeepSeek-V2.5 được phát hành dưới dạng nguồn mở trên Hugging Face với giấy phép biến thể của MIT, cho phép sử dụng miễn phí và thương mại hóa với một số điều kiện nhất định.

• Để chạy DeepSeek-V2.5 cục bộ, người dùng cần thiết lập định dạng BF16 với GPU 80GB (8 GPU để tận dụng tối đa).

• Mô hình sử dụng kiến trúc Multi-Head Latent Attention (MLA) giúp giảm bộ nhớ đệm KV, cải thiện tốc độ suy luận mà không ảnh hưởng đến hiệu suất.

📌 DeepSeek-V2.5 đặt ra tiêu chuẩn mới cho mô hình AI nguồn mở, kết hợp xử lý ngôn ngữ và lập trình. Với hiệu suất vượt trội trong nhiều tiêu chuẩn đánh giá, mô hình này mở ra cơ hội ứng dụng AI tiên tiến cho doanh nghiệp và nhà phát triển, đồng thời thúc đẩy nghiên cứu và phát triển trong lĩnh vực AI.

https://venturebeat.com/ai/deepseek-v2-5-wins-praise-as-the-new-true-open-source-ai-model-leader/

Không có file đính kèm.

Nguồn tham khảo

152

AI mở-nguồn mở AI tools AI đạo đức 2024-09-11 00:09:47

LightEval - công cụ đánh giá mã nguồn mở mới từ Hugging Face

• Hugging Face vừa ra mắt LightEval - bộ công cụ đánh giá nhẹ giúp doanh nghiệp và nhà nghiên cứu đánh giá các mô hình ngôn ngữ lớn (LLM).

• LightEval là bước tiến quan trọng trong nỗ lực làm cho quá trình phát triển AI minh bạch và có thể tùy chỉnh hơn.

• CEO Clément Delangue nhấn mạnh đánh giá là "một trong những bước quan trọng nhất - nếu không phải là quan trọng nhất - trong AI".

• Công cụ này giải quyết nhu cầu ngày càng tăng về các công cụ đánh giá chính xác và linh hoạt khi AI ngày càng quan trọng trong hoạt động kinh doanh.

• LightEval cho phép tùy chỉnh đánh giá theo mục tiêu cụ thể của doanh nghiệp, từ đo lường tính công bằng trong ứng dụng y tế đến tối ưu hóa hệ thống đề xuất cho thương mại điện tử.

• Nó tích hợp liền mạch với các công cụ hiện có của Hugging Face như thư viện xử lý dữ liệu Datatrove và thư viện huấn luyện mô hình Nanotron.

• LightEval hỗ trợ đánh giá trên nhiều thiết bị như CPU, GPU và TPU, có thể mở rộng quy mô cho cả triển khai nhỏ và lớn.

• Công cụ này đáp ứng nhu cầu ngày càng tăng về đánh giá AI khi các mô hình trở nên lớn và phức tạp hơn.

• LightEval giúp doanh nghiệp đảm bảo mô hình của họ đáp ứng các tiêu chuẩn đạo đức và kinh doanh trước khi triển khai.

• Là mã nguồn mở, LightEval khuyến khích trách nhiệm giải trình lớn hơn trong đánh giá AI.

• Người dùng có thể đánh giá mô hình trên nhiều tiêu chuẩn phổ biến hoặc xác định các tác vụ tùy chỉnh của riêng họ.

• LightEval hỗ trợ các cấu hình đánh giá nâng cao như sử dụng trọng số khác nhau, song song hóa pipeline hoặc phương pháp dựa trên bộ điều hợp.

• Công cụ này là một phần trong xu hướng dân chủ hóa phát triển AI, giúp các công ty nhỏ hơn và nhà phát triển cá nhân tiếp cận các công cụ đánh giá mạnh mẽ.

• Thách thức lớn nhất của LightEval sẽ là quản lý độ phức tạp của đánh giá AI khi các mô hình tiếp tục phát triển.

📌 LightEval của Hugging Face mở ra kỷ nguyên mới cho đánh giá và trách nhiệm giải trình AI. Công cụ mã nguồn mở này cho phép tùy chỉnh linh hoạt, minh bạch và hỗ trợ đa nền tảng, giúp doanh nghiệp đảm bảo mô hình AI đáng tin cậy, công bằng và hiệu quả trong các ứng dụng thực tế ngày càng phức tạp.

https://venturebeat.com/ai/lighteval-hugging-faces-open-source-solution-to-ais-accountability-problem/

Không có file đính kèm.

Nguồn tham khảo

164

AI models AI mở-nguồn mở 2024-09-10 23:57:43

Mô hình Political DEBATE: Nguồn mở cho phân loại văn bản trong khoa học chính trị

• Các nhà nghiên cứu từ Đại học Princeton, Pennsylvania State và Louisiana State đã phát triển mô hình Political DEBATE (DeBERTa Algorithm for Textual Entailment) để phân loại văn bản chính trị.

• Mô hình có hai phiên bản: Large (304 triệu tham số) và Base (86 triệu tham số), được thiết kế để thực hiện phân loại zero-shot và few-shot hiệu quả.

• Political DEBATE sử dụng khung phân loại Natural Language Inference (NLI), cho phép sử dụng mô hình mã hóa ngôn ngữ nhỏ hơn như BERT, giảm đáng kể yêu cầu tính toán so với mô hình LLM tạo sinh.

• Nhóm nghiên cứu giới thiệu bộ dữ liệu PolNLI gồm hơn 200.000 tài liệu chính trị được gán nhãn, bao gồm 201.691 tài liệu ghép với 852 giả thuyết suy luận duy nhất.

• PolNLI được chia thành 4 nhiệm vụ chính: phát hiện quan điểm, phân loại chủ đề, phát hiện phát ngôn thù địch và độc hại, và trích xuất sự kiện.

• Dữ liệu được lấy từ nhiều nguồn đa dạng như mạng xã hội, tin tức, bản tin quốc hội, luật pháp và phản hồi từ cộng đồng. Phần lớn văn bản trong PolNLI do con người tạo ra.

• Mô hình Political DEBATE được xây dựng dựa trên DeBERTa V3 base và large, được tinh chỉnh trước cho phân loại NLI mục đích chung.

• Quá trình đào tạo sử dụng thư viện Transformers và được giám sát bằng thư viện Weights and Biases. Việc lựa chọn mô hình cuối cùng dựa trên đánh giá định lượng và định tính.

• Political DEBATE được so sánh với 4 mô hình khác: DeBERTa base và large NLI mục đích chung, Llama 3.1 8B nguồn mở và Claude 3.5 Sonnet độc quyền.

• Mô hình thể hiện khả năng học ít mẫu hiệu quả, học các nhiệm vụ mới chỉ với 10-25 tài liệu được lấy mẫu ngẫu nhiên.

• Phân tích hiệu quả chi phí cho thấy Political DEBATE nhanh hơn đáng kể so với Llama 3.1 8B trên nhiều cấu hình phần cứng khác nhau.

• Mô hình hoạt động hiệu quả trên phần cứng phổ biến như GPU laptop (M3 max) và GPU đám mây miễn phí (Tesla T4).

📌 Mô hình Political DEBATE và bộ dữ liệu PolNLI mang lại giải pháp nguồn mở hiệu quả cho phân loại văn bản chính trị. Với 304 triệu tham số, mô hình có thể xử lý 5.000 tài liệu trong vài phút trên phần cứng phổ thông, đạt hiệu suất tương đương mô hình độc quyền lớn hơn nhiều lần.

https://www.marktechpost.com/2024/09/09/political-debate-language-models-open-source-solutions-for-efficient-text-classification-in-political-science/

Không có file đính kèm.

Nguồn tham khảo

141

AI mở-nguồn mở 2024-09-10 17:06:45

Reflection 70B bị tố cáo gian lận và hiệu suất kém

- Reflection 70B, một biến thể của mô hình ngôn ngữ lớn (LLM) nguồn mở Llama 3.1 của Meta, được HyperWrite (trước đây là OthersideAI) - một công ty khởi nghiệp nhỏ ở New York - huấn luyện và phát hành. Reflection 70B đã khoe khoang về các kết quả đánh giá ấn tượng và dẫn đầu trên các bài kiểm tra của bên thứ ba.

- Tuy nhiên, chỉ sau một cuối tuần, vương miện của "vua" AI nguồn mở mới này đã bị phai nhạt khi các nhà đánh giá độc lập khác không thể tái hiện một số chỉ số hiệu suất được tuyên bố.

- Tổ chức Artificial Analysis đã công bố phân tích riêng cho thấy điểm số MMLU của Reflection Llama 3.170B thấp hơn đáng kể so với Llama 3.1 70B của Meta, mâu thuẫn lớn với kết quả ban đầu của HyperWrite.

- Matt Shumer, đồng sáng lập và CEO của HyperWrite, đã thừa nhận rằng trọng số của Reflection 70B đã bị "lỗi" trong quá trình tải lên Hugging Face, có thể dẫn đến hiệu suất kém hơn so với phiên bản "API nội bộ" của công ty.

- Artificial Analysis sau đó được cấp quyền truy cập vào một API riêng và nhận thấy hiệu suất ấn tượng nhưng không ở mức độ như các tuyên bố ban đầu. Tổ chức này đặt ra hai câu hỏi then chốt về lý do tại sao phiên bản được công bố lại khác với phiên bản họ kiểm tra và lý do tại sao trọng số của phiên bản họ kiểm tra chưa được phát hành.

- Người dùng trên các cộng đồng Reddit về học máy và AI cũng đặt nghi vấn về hiệu suất và nguồn gốc được tuyên bố của Reflection 70B, với ít nhất một người dùng X tố cáo Shumer "gian lận trong cộng đồng nghiên cứu AI".

📌 Phản ứng dữ dội trước những cáo buộc gian lận và hiệu suất không đạt yêu cầu của mô hình AI nguồn mở mới nhất Reflection 70B, các nhà phân tích độc lập đặt nhiều câu hỏi về các tuyên bố hiệu suất ban đầu của HyperWrite. Các bằng chứng cho thấy Reflection 70B có thể không phải là phiên bản Llama 3.1 hàng đầu như tuyên bố.

https://venturebeat.com/ai/new-open-source-ai-leader-reflection-70bs-performance-questioned-accused-of-fraud/

Không có file đính kèm.

Nguồn tham khảo

131

AI mở-nguồn mở AI nhỏ 2024-09-09 23:08:49

LG AI Research ra mắt EXAONE 3.0 - LLM 7,8 tỷ tham số vượt trội trong tiếng Anh và tiếng Hàn

• LG AI Research đã ra mắt EXAONE 3.0, một mô hình ngôn ngữ song ngữ tiên tiến với 7,8 tỷ tham số, xuất sắc trong cả tiếng Anh và tiếng Hàn.

• EXAONE 3.0 là phiên bản mới nhất trong dòng mô hình EXAONE, với tên gọi xuất phát từ "EXpert AI for EveryONE", thể hiện cam kết của LG trong việc phổ cập AI chuyên gia.

• So với EXAONE 1.0 và 2.0, phiên bản 3.0 đã cải thiện đáng kể về hiệu suất và chi phí:
- Giảm 56% thời gian xử lý suy luận
- Giảm 72% chi phí so với EXAONE 2.0
- Chi phí vận hành chỉ bằng 6% so với EXAONE 1.0

• Kiến trúc của EXAONE 3.0:
- Sử dụng kiến trúc transformer chỉ giải mã (decoder-only)
- Độ dài ngữ cảnh tối đa 4.096 token
- 32 lớp với kích thước feedforward 14.336 và 32 đầu
- Sử dụng Rotary Position Embeddings (RoPE) và Grouped Query Attention (GQA)
- Kích thước từ vựng 102.400

• Quá trình huấn luyện:
- Tiền huấn luyện trên tập dữ liệu đa dạng gồm 8 nghìn tỷ token
- Hai giai đoạn: kiến thức chung và kiến thức chuyên ngành
- Tinh chỉnh có giám sát (SFT) và Tối ưu hóa ưu tiên trực tiếp (DPO)

• Hiệu suất vượt trội:
- Đứng đầu trong nhiều bài kiểm tra tiếng Anh như MT-Bench (điểm 9,01), Arena-Hard-v0.1, WildBench, AlpacaEval 2.0 LC
- Xếp hạng cao trong các bài kiểm tra toán học và lập trình
- Dẫn đầu trong các bài kiểm tra tiếng Hàn như KMMLU, KoBEST, LogicKor

• Ứng dụng đa ngành:
- Y tế: chẩn đoán, phân tích dự đoán, y học cá nhân hóa
- Tài chính: đánh giá rủi ro, phát hiện gian lận, phân tích thị trường
- Truyền thông và giải trí: tự động hóa tạo nội dung, mô phỏng thực tế, trải nghiệm người dùng

• LG AI Research đã mở mã nguồn EXAONE 3.0 7.8B cho cộng đồng AI sử dụng với mục đích phi thương mại và nghiên cứu, thúc đẩy sự đổi mới và hợp tác trong lĩnh vực AI.

📌 EXAONE 3.0 là bước đột phá của LG AI Research với mô hình ngôn ngữ 7,8 tỷ tham số vượt trội trong tiếng Anh và tiếng Hàn. Mô hình mã nguồn mở này đạt hiệu suất cao trên nhiều bài kiểm tra, giảm 72% chi phí so với phiên bản trước và có tiềm năng ứng dụng rộng rãi trong nhiều ngành.

https://www.marktechpost.com/2024/09/08/lg-ai-research-open-sources-exaone-3-0-a-7-8b-bilingual-language-model-excelling-in-english-and-korean-with-top-performance-in-real-world-applications-and-complex-reasoning/

Không có file đính kèm.

Nguồn tham khảo

149

AI mở-nguồn mở AI models 2024-09-09 02:10:56

Tất tần tật về Llama - mô hình AI tạo sinh nguồn mở đầy tiềm năng của Meta

• Llama là gia đình mô hình AI tạo sinh nguồn mở của Meta, gồm 3 phiên bản: Llama 8B, Llama 70B và Llama 405B. Phiên bản mới nhất là Llama 3.1, ra mắt tháng 7/2024.

• Các mô hình được huấn luyện trên dữ liệu web đa ngôn ngữ, mã nguồn công khai và dữ liệu tổng hợp. Llama 8B và 70B nhỏ gọn, có thể chạy trên laptop đến máy chủ. Llama 405B lớn hơn, yêu cầu phần cứng trung tâm dữ liệu.

• Tất cả mô hình Llama có cửa sổ ngữ cảnh 128.000 token, tương đương khoảng 100.000 từ hoặc 300 trang.

• Llama có thể thực hiện nhiều tác vụ như lập trình, trả lời câu hỏi toán học, tóm tắt tài liệu bằng 8 ngôn ngữ. Nó có thể xử lý hầu hết các tác vụ dựa trên văn bản nhưng chưa thể xử lý hình ảnh.

• Mô hình Llama 3.1 có thể được cấu hình để sử dụng các ứng dụng, công cụ và API bên thứ ba như Brave Search, Wolfram Alpha và trình thông dịch Python.

• Người dùng có thể trò chuyện với Llama thông qua chatbot Meta AI trên Facebook Messenger, WhatsApp, Instagram, Oculus và Meta.ai.

• Nhà phát triển có thể tải xuống, sử dụng hoặc tinh chỉnh Llama trên hầu hết các nền tảng đám mây phổ biến. Meta có hơn 25 đối tác lưu trữ Llama, bao gồm Nvidia, Databricks, Groq, Dell và Snowflake.

• Meta cung cấp các công cụ để làm cho Llama "an toàn hơn" khi sử dụng:
- Llama Guard: khung kiểm duyệt nội dung
- Prompt Guard: công cụ bảo vệ chống tấn công prompt injection
- CyberSecEval: bộ đánh giá rủi ro an ninh mạng

• Hạn chế của Llama bao gồm nguy cơ vi phạm bản quyền và khả năng tạo ra mã lỗi hoặc không an toàn. Cần có chuyên gia xem xét trước khi sử dụng mã do AI tạo ra.

📌 Llama là mô hình AI tạo sinh nguồn mở tiên tiến của Meta với 3 phiên bản (8B, 70B, 405B), có khả năng đa dạng trong xử lý ngôn ngữ tự nhiên. Meta cung cấp nhiều công cụ hỗ trợ, nhưng vẫn cần thận trọng về vấn đề bản quyền và an toàn khi sử dụng.

https://techcrunch.com/2024/09/08/meta-llama-everything-you-need-to-know-about-the-open-generative-ai-model/

Không có file đính kèm.

Nguồn tham khảo

275

AI tools AI mở-nguồn mở 2024-09-08 08:13:29

IBM Research ra mắt Docling - công cụ AI mã nguồn mở chuyển đổi PDF chính xác cao, giữ nguyên cấu trúc phức tạp

• IBM Research đã giới thiệu Docling, một gói phần mềm mã nguồn mở được thiết kế đặc biệt để chuyển đổi tài liệu PDF sang các định dạng có thể xử lý bằng máy.

• Docling sử dụng các mô hình AI chuyên biệt cho phân tích bố cục và nhận dạng cấu trúc bảng, bao gồm DocLayNet và TableFormer. Các mô hình này được đào tạo trên các bộ dữ liệu lớn và có thể xử lý nhiều loại tài liệu và định dạng khác nhau.

• Công cụ này hoạt động hiệu quả trên phần cứng thông thường, có thể cấu hình cho xử lý hàng loạt và sử dụng tương tác.

• Quy trình xử lý của Docling bao gồm các bước: phân tích cú pháp tài liệu PDF, trích xuất token văn bản và tọa độ hình học, áp dụng mô hình AI để phân tích bố cục, nhận dạng các phần tử như bảng và hình ảnh, tái tạo cấu trúc gốc với độ chính xác cao.

• Mô hình TableFormer của Docling có khả năng nhận dạng các cấu trúc bảng phức tạp, bao gồm cả những bảng không có đường viền, trải dài nhiều hàng hoặc cột, hoặc chứa các ô trống.

• Kết quả phân tích được tổng hợp và xử lý sau để nâng cao metadata, xác định ngôn ngữ tài liệu và sửa thứ tự đọc. Tài liệu chuyển đổi được xuất ra dưới dạng JSON hoặc Markdown.

• Trong các bài kiểm tra trên bộ dữ liệu 225 trang, Docling đã xử lý tài liệu với độ trễ dưới 1 giây/trang trên một CPU.

• Trên MacBook Pro M3 Max 16 nhân, Docling xử lý 92 trang trong 103 giây sử dụng 16 luồng, đạt thông lượng 2,45 trang/giây.

• Trên phần cứng cũ hơn như Intel Xeon E5-2690, Docling vẫn duy trì hiệu suất tốt, xử lý 143 trang trong 239 giây với 16 luồng.

• Docling giải quyết các thách thức trong chuyển đổi tài liệu PDF phức tạp, bao gồm việc mất các tính năng cấu trúc, khó khăn trong việc khôi phục bảng, hình ảnh và thứ tự đọc.

• Công cụ này khắc phục những hạn chế của các giải pháp hiện có, cả thương mại và mã nguồn mở, trong việc xử lý bố cục tài liệu phức tạp và nhận dạng bảng chính xác.

• Docling cung cấp một giải pháp mạnh mẽ và linh hoạt cho chuyển đổi tài liệu, phù hợp cho cả nhà nghiên cứu học thuật và doanh nghiệp thương mại.

📌 Docling của IBM Research là công cụ AI mã nguồn mở tiên tiến cho chuyển đổi PDF, xử lý 2,45 trang/giây trên MacBook Pro M3 Max. Nó giải quyết các thách thức về bảo toàn cấu trúc và nhận dạng bảng phức tạp, phù hợp cho cả nghiên cứu và ứng dụng thương mại.

https://www.marktechpost.com/2024/09/06/ibm-research-open-sources-docling-an-ai-tool-for-high-precision-pdf-document-conversion-and-structural-integrity-maintenance-across-complex-layouts/

Không có file đính kèm.

Nguồn tham khảo

191

AI mở-nguồn mở 2024-09-08 07:50:56

Định nghĩa mới về "nguồn mở" có thể gây khó khăn cho các công ty AI lớn

• Open Source Initiative (OSI) vừa công bố cập nhật định nghĩa về "AI nguồn mở" vào ngày 6/9/2024.

• Định nghĩa mới này có thể loại trừ các mô hình AI từ các công ty lớn như Meta và Google.

• OSI cho rằng xã hội cần có các quyền tự do cơ bản của nguồn mở đối với AI để mang lại lợi ích cho mọi người.

• Theo định nghĩa mới, AI nguồn mở phải đảm bảo 4 quyền tự do:
- Sử dụng hệ thống cho bất kỳ mục đích nào mà không cần xin phép
- Nghiên cứu cách hệ thống hoạt động và kiểm tra các thành phần
- Sửa đổi hệ thống cho bất kỳ mục đích nào
- Chia sẻ hệ thống cho người khác sử dụng có hoặc không có sửa đổi

• Các quyền tự do này áp dụng cho cả hệ thống hoàn chỉnh và các thành phần riêng lẻ.

• Điều kiện tiên quyết là phải có quyền truy cập vào dạng ưu tiên để thực hiện sửa đổi hệ thống.

• Theo Nik Marda, chuyên gia kỹ thuật về quản trị AI của Mozilla, các mô hình như Llama 3.1 của Meta hay Gemma của Google sẽ không đáp ứng định nghĩa mới này.

• Định nghĩa cũ lỏng lẻo hơn cho phép các công ty có đủ khoảng trống để thay đổi chức năng mô hình và vô hiệu hóa quyền truy cập theo ý muốn.

• Điều này có thể dẫn đến gián đoạn dịch vụ, hiệu suất kém và các tính năng đắt đỏ hơn trong các ứng dụng và công cụ mà mọi người sử dụng.

• Meta và Google chưa công nhận định nghĩa mới này như một tiêu chuẩn của ngành.

• Việc thiếu một định nghĩa chính xác trong quá khứ đã khiến một số công ty dễ dàng hơn trong việc hành xử như thể AI của họ là nguồn mở ngay cả khi không phải vậy.

• Nhiều, nếu không muốn nói là hầu hết, các mô hình từ các tác nhân thương mại lớn sẽ không đáp ứng định nghĩa mới này.

📌 OSI cập nhật định nghĩa "AI nguồn mở" với 4 quyền tự do cơ bản, có thể loại trừ các mô hình của Meta và Google. Định nghĩa mới nhằm ngăn chặn việc lạm dụng thuật ngữ "nguồn mở" và đảm bảo quyền lợi người dùng.

https://www.digitaltrends.com/computing/new-open-source-definition-osi-meta-google/

Không có file đính kèm.

Nguồn tham khảo

104

AI mở-nguồn mở AI doanh nghiệp 2024-09-08 07:25:21

Red Hat ra mắt Enterprise Linux AI - giải pháp AI thực sự hữu ích cho quản trị viên và lập trình viên

• Red Hat chính thức ra mắt Red Hat Enterprise Linux (RHEL) AI, một giải pháp AI thực sự hữu ích cho quản trị viên và lập trình viên RHEL.

• RHEL AI cung cấp image RHEL được tối ưu hóa hoàn toàn, có thể khởi động để triển khai máy chủ trên các môi trường đám mây lai.

• Nền tảng này kết hợp mô hình ngôn ngữ lớn Granite của IBM Research, công cụ căn chỉnh InstructLab dựa trên phương pháp LAB và cách tiếp cận hợp tác để phát triển mô hình.

• Phương pháp LAB sử dụng tạo dữ liệu tổng hợp và tinh chỉnh nhiều giai đoạn để căn chỉnh mô hình AI/ML mà không cần nỗ lực thủ công tốn kém.

• RHEL AI được tích hợp trong OpenShift AI, nền tảng MLOps của Red Hat, cho phép triển khai mô hình quy mô lớn trong các cụm Kubernetes phân tán.

• Giải pháp này sử dụng Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) để truy cập kiến thức bên ngoài được phê duyệt, giúp cải thiện độ chính xác của câu trả lời.

• RHEL AI cho phép các chuyên gia lĩnh vực, không chỉ các nhà khoa học dữ liệu, đóng góp vào mô hình AI tạo sinh được xây dựng cho mục đích cụ thể trên đám mây lai.

• Nền tảng này được thiết kế để chạy ở bất kỳ nơi nào dữ liệu của bạn tồn tại - tại chỗ, ở biên hoặc trên đám mây công cộng.

• RHEL AI hiện có sẵn trên Amazon Web Services (AWS) và IBM Cloud dưới dạng đăng ký "tự mang" (BYO). Trong vài tháng tới, nó sẽ có sẵn dưới dạng dịch vụ trên AWS, Google Cloud Platform (GCP), IBM Cloud và Microsoft Azure.

• Dell Technologies đã công bố hợp tác để đưa RHEL AI lên máy chủ Dell PowerEdge, nhằm đơn giản hóa việc triển khai AI bằng cách cung cấp các giải pháp phần cứng được xác thực, bao gồm điện toán tăng tốc NVIDIA, được tối ưu hóa cho RHEL AI.

📌 RHEL AI của Red Hat mang đến giải pháp AI nguồn mở cấp doanh nghiệp, kết hợp mô hình Granite, công cụ InstructLab và phương pháp LAB. Nền tảng này hứa hẹn đơn giản hóa việc áp dụng AI trong doanh nghiệp, với khả năng triển khai linh hoạt trên nhiều môi trường đám mây và hỗ trợ từ các đối tác như Dell.

https://www.zdnet.com/article/red-hat-unleashes-enterprise-linux-ai-and-its-truly-useful/

Không có file đính kèm.

Nguồn tham khảo

137

AI mở-nguồn mở 2024-09-07 02:41:26

Reflection 70B - mô hình AI nguồn mở mạnh nhất thế giới với khả năng tự sửa lỗi

• HyperWrite, công ty khởi nghiệp AI do Matt Shumer đồng sáng lập, vừa công bố Reflection 70B - mô hình ngôn ngữ lớn (LLM) mới dựa trên Llama 3.1-70B Instruct nguồn mở của Meta.

• Reflection 70B nổi bật với kỹ thuật tự sửa lỗi mới và hiệu suất vượt trội trong các bài kiểm tra của bên thứ ba như MMLU và HumanEval.

• Mô hình sử dụng kỹ thuật "reflection tuning", cho phép nó phát hiện lỗi trong lập luận của chính mình và sửa chữa trước khi đưa ra phản hồi cuối cùng.

• Reflection 70B giới thiệu các token đặc biệt mới để lập luận và sửa lỗi, giúp tương tác với mô hình dễ dàng hơn theo cách có cấu trúc.

• Mô hình đặc biệt hữu ích cho các tác vụ đòi hỏi độ chính xác cao, vì nó tách quá trình lập luận thành các bước riêng biệt để cải thiện độ chính xác.

• Reflection 70B hiện có sẵn để tải xuống qua kho lưu trữ mã AI Hugging Face, và quyền truy cập API sẽ được cung cấp thông qua nhà cung cấp dịch vụ GPU Hyperbolic Labs.

• HyperWrite đang phát triển Reflection 405B, một mô hình lớn hơn và mạnh mẽ hơn, dự kiến ra mắt vào tuần tới và có thể vượt trội so với các mô hình nguồn đóng hàng đầu hiện nay.

• Glaive, một startup chuyên tạo bộ dữ liệu cho các trường hợp sử dụng cụ thể, đã đóng góp quan trọng vào thành công của Reflection 70B bằng cách tạo dữ liệu tổng hợp.

• Quá trình đào tạo Reflection 70B mất tổng cộng 3 tuần, với 5 lần lặp lại mô hình và sử dụng bộ dữ liệu hoàn toàn tùy chỉnh được xây dựng bằng hệ thống tạo dữ liệu tổng hợp của Glaive.

• HyperWrite, trước đây có tên là Otherside AI, được thành lập vào năm 2020 bởi Matt Shumer và Jason Kuperberg. Công ty đã huy động được 2,8 triệu USD trong vòng gọi vốn gần đây nhất vào tháng 3/2023.

• Sản phẩm chính của HyperWrite là một trợ lý viết AI có hơn 2 triệu người dùng tính đến tháng 11/2023.

• Việc phát hành Reflection 70B đánh dấu một cột mốc quan trọng cho AI nguồn mở, cung cấp cho các nhà phát triển và nhà nghiên cứu một công cụ mạnh mẽ có khả năng cạnh tranh với các mô hình độc quyền.

📌 Reflection 70B, mô hình AI nguồn mở mới từ HyperWrite, vượt trội so với các đối thủ trong nhiều bài kiểm tra. Với khả năng tự sửa lỗi độc đáo, nó hứa hẹn thay đổi cục diện AI nguồn mở. Mô hình lớn hơn, Reflection 405B, sắp ra mắt có thể vượt qua cả GPT-4.

https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/

Không có file đính kèm.

Nguồn tham khảo

114

AI mở-nguồn mở AI so sánh 2024-09-07 01:58:10

Reflection 70B - mô hình nguồn mở mới vượt trội GPT-4o và Claude Sonnet 3.5

• Matt Shumer, đồng sáng lập và CEO của startup viết AI HyperWrite, vừa ra mắt mô hình mới có tên Reflection 70B.

• Reflection 70B là mô hình ngôn ngữ nguồn mở hàng đầu, vượt trội so với các mô hình độc quyền như GPT-4o của OpenAI và Claude Sonnet 3.5 của Anthropic.

• Mô hình được phát triển bằng kỹ thuật mới gọi là Reflection-Tuning, cho phép phát hiện và sửa lỗi của chính nó trước khi đưa ra câu trả lời cuối cùng.

• Reflection 70B đạt hiệu suất cao trong các bài kiểm tra chuẩn như MMLU, MATH, IFEval và GSM8K.

• Mô hình xuất ra quá trình suy luận nội bộ trong thẻ <thinking>, câu trả lời cuối cùng trong thẻ <output>, và sử dụng thẻ <reflection> để sửa lỗi phát hiện được.

• Hiện tại, Reflection 70B đứng đầu trong nhiều tiêu chuẩn và thể hiện hiệu suất vượt trội so với GPT-4o và Llama 3.1 405B.

• Mô hình Reflection 405B dự kiến ra mắt tuần tới, được kỳ vọng sẽ nâng cao tiêu chuẩn cho các mô hình ngôn ngữ lớn toàn cầu.

• Alibaba cũng vừa phát hành Qwen2-VL, mô hình mới nhất trong loạt mô hình thị giác-ngôn ngữ của họ.

• Qwen2-VL có khả năng trò chuyện qua camera, chơi trò chơi bài, và điều khiển điện thoại di động và robot bằng cách hoạt động như một agent.

• Qwen2-VL có 3 phiên bản: mô hình nguồn mở 2 tỷ và 7 tỷ tham số, và mô hình nâng cao 72 tỷ tham số truy cập qua API.

• Mô hình 72 tỷ tham số của Qwen2-VL đạt hiệu suất tốt nhất trong 20 tiêu chuẩn về hiểu thị giác.

• Alibaba cho biết mô hình 72 tỷ tham số của họ thể hiện hiệu suất hàng đầu trong hầu hết các chỉ số, thường vượt qua cả các mô hình độc quyền như GPT-4o và Claude 3.5-Sonnet.

• Qwen2-VL được đánh giá là có ưu thế đáng kể trong việc hiểu tài liệu.

📌 Hai mô hình AI nguồn mở mới Reflection 70B và Qwen2-VL 72B vượt trội GPT-4o và Claude 3.5 trong nhiều tiêu chuẩn. Reflection 70B sử dụng kỹ thuật Reflection-Tuning để tự sửa lỗi, trong khi Qwen2-VL thể hiện khả năng hiểu thị giác vượt trội trên 20 tiêu chuẩn.

https://analyticsindiamag.com/ai-news-updates/new-open-source-champion-reflection-70b-outperforms-gpt-4o-and-claude-sonnet-3-5/

Không có file đính kèm.

Nguồn tham khảo

177

AI tools AI mở-nguồn mở 2024-09-07 01:49:55

OpenPerPlex: công cụ tìm kiếm AI nguồn mở mới giúp tìm kiếm chính xác và nhanh chóng hơn

• OpenPerPlex là một công cụ tìm kiếm AI nguồn mở mới được giới thiệu nhằm giải quyết các thách thức trong việc tìm kiếm thông tin trực tuyến.

• Công cụ này kết hợp nhiều công nghệ tiên tiến để cải thiện khả năng tìm kiếm và độ chính xác của kết quả:
- Sử dụng phân đoạn ngữ nghĩa để hiểu và xử lý truy vấn tìm kiếm tốt hơn
- Hệ thống xếp hạng lại để tinh chỉnh kết quả dựa trên mức độ liên quan
- Tích hợp với Google Search thông qua API chuyên biệt để mở rộng phạm vi thông tin
- Sử dụng công cụ suy luận mạnh mẽ để xử lý hiệu quả

• Các tính năng nổi bật của OpenPerPlex:
- Hỗ trợ cập nhật thời gian thực
- Cho phép truy vấn dựa trên URL để truy xuất nội dung web cụ thể
- Cung cấp gói miễn phí với 500 yêu cầu mỗi tháng

• OpenPerPlex giải quyết những hạn chế của các công cụ tìm kiếm truyền thống:
- Các công cụ hiện tại thường dựa vào tìm kiếm từ khóa và thuật toán xếp hạng không hiểu đầy đủ ngữ cảnh truy vấn
- Khó tìm thông tin chính xác cho các truy vấn phức tạp hoặc chủ đề cụ thể
- Người dùng thường gặp khó khăn trong việc truy xuất thông tin liên quan và hữu ích

• Mục tiêu của OpenPerPlex là giúp người dùng tìm câu trả lời chính xác nhanh chóng, làm cho việc tìm kiếm hiệu quả và ít gây khó chịu hơn.

• Công cụ này đại diện cho một bước tiến quan trọng trong lĩnh vực công cụ tìm kiếm được hỗ trợ bởi AI.

• OpenPerPlex có thể mang lại lợi ích cho cả cá nhân và dự án nhỏ thông qua gói miễn phí của nó.

• Việc tích hợp với Google Search giúp mở rộng phạm vi thông tin có sẵn, trong khi vẫn duy trì khả năng xử lý và phân tích nâng cao của riêng nó.

📌 OpenPerPlex là công cụ tìm kiếm AI nguồn mở mới kết hợp phân đoạn ngữ nghĩa, xếp hạng lại và tích hợp Google. Cung cấp 500 yêu cầu/tháng miễn phí, hỗ trợ cập nhật thời gian thực và truy vấn URL, giúp tìm kiếm chính xác và hiệu quả hơn.

https://www.marktechpost.com/2024/09/06/openperplex-a-new-open-source-ai-search-engine-that-leverages-cutting-edge-technologies-to-provide-search-capabilities-over-the-web/

Không có file đính kèm.

Nguồn tham khảo

150

AI mở-nguồn mở AI deepfake-ảo giác-ANTT 2024-09-07 01:45:46

Reflection 70B - mô hình AI nguồn mở mới có khả năng tự kiểm tra và tránh ảo giác

• HyperWrite, một startup có trụ sở tại New York, đã phát triển một mô hình AI nguồn mở mới có tên Reflection 70B, dựa trên mô hình Llama của Meta.

• Điểm đặc biệt của Reflection 70B là khả năng tự kiểm tra và tránh "ảo giác" - một vấn đề phổ biến ở các chatbot AI hiện nay như ChatGPT hay Google Gemini.

• Reflection 70B sử dụng công nghệ "reflection-tuning", cho phép AI phân tích kết quả của chính mình, phát hiện lỗi và sửa chữa trước khi đưa ra câu trả lời cuối cùng.

• CEO Matt Shumer gọi Reflection 70B là "mô hình AI nguồn mở hàng đầu thế giới" nhờ khả năng này.

• Ý tưởng về AI tự cải thiện không hoàn toàn mới. Mark Zuckerberg của Meta đã đề xuất một hệ thống tương tự vào tháng 4, trong đó AI giải quyết vấn đề bằng nhiều cách khác nhau và học hỏi từ kết quả tốt nhất.

• Reflection 70B áp dụng cách tiếp cận trực tiếp hơn bằng cách sửa thông tin trước khi hiển thị cho người dùng, thay vì chỉ đưa dữ liệu đã sửa vào quá trình đào tạo.

• Một ví dụ về khả năng của Reflection 70B là sửa lỗi đếm số chữ "r" trong từ "strawberry" - một lỗi nổi tiếng gần đây của các mô hình AI hàng đầu.

• Độ chính xác của AI ngày càng quan trọng khi con người dựa vào chúng nhiều hơn để tìm kiếm thông tin và ý kiến về các vấn đề quan trọng.

• EU, Mỹ và Anh đã ký một hiệp ước mới để đảm bảo an toàn AI, nhằm giữ cho AI trong tương lai phù hợp với lợi ích tốt nhất của con người.

• California đang chuẩn bị luật AI yêu cầu công bố khi một mô hình AI được đào tạo trên máy tính có khả năng thực hiện 10^26 phép tính dấu phẩy động mỗi giây.

• Các nhà làm luật đang phải đối mặt với thách thức trong việc hiểu và quản lý các vấn đề phức tạp về toán học và logic nằm ở cốt lõi của các mô hình AI hiện đại.

📌 Reflection 70B, mô hình AI nguồn mở mới từ HyperWrite, có khả năng tự kiểm tra và sửa lỗi trước khi đưa ra câu trả lời, giải quyết vấn đề ảo giác phổ biến ở chatbot. Công nghệ "reflection-tuning" này hứa hẹn nâng cao độ chính xác của AI, một yếu tố ngày càng quan trọng khi con người phụ thuộc nhiều hơn vào AI để tìm kiếm thông tin.

https://www.inc.com/kit-eaton/new-open-source-ai-model-can-check-itself-avoid-hallucinations.html

Không có file đính kèm.

Nguồn tham khảo

138

AI an toàn-an ninh-techwar AI mở-nguồn mở 2024-09-06 05:54:08

LLMSecCode: Khung đánh giá mã hóa an toàn cho mô hình ngôn ngữ lớn

• LLMSecCode là một khung nguồn mở mới do các nhà nghiên cứu từ Đại học Công nghệ Chalmers (Thụy Điển) phát triển nhằm đánh giá khả năng mã hóa an toàn của các mô hình ngôn ngữ lớn (LLM).

• Mục tiêu chính là tận dụng LLM để tăng cường bảo mật mã nguồn, phát hiện và giảm thiểu các lỗ hổng bảo mật trong phần mềm.

• LLMSecCode cung cấp một nền tảng toàn diện để đánh giá khả năng tạo mã an toàn và sửa lỗi của các LLM khác nhau.

• Khung này hoạt động bằng cách thay đổi các tham số chính của LLM như nhiệt độ và top-p, cho phép điều chỉnh prompt và hỗ trợ nhiều mô hình như CodeLlama, DeepSeekCoder.

• Trong thử nghiệm, DeepSeek Coder 33B Instruct đạt kết quả ấn tượng trong các tác vụ Sửa chữa chương trình tự động (APR), giải quyết được tới 78,7% thách thức.

• Llama 2 7B Chat xuất sắc trong các tác vụ liên quan đến bảo mật, với 76,5% mã được tạo ra không có lỗ hổng.

• Khung này cho thấy sự khác biệt 10% về hiệu suất khi thay đổi tham số mô hình và 9% khi sửa đổi prompt.

• So sánh với các tác nhân bên ngoài đáng tin cậy, kết quả của LLMSecCode chỉ chênh lệch 5%, chứng tỏ độ chính xác và đáng tin cậy.

• LLMSecCode giúp xác định LLM hiệu quả nhất cho mã hóa an toàn, góp phần phát triển hệ thống phần mềm bảo mật hơn.

• Các công cụ hiện tại như CodeQL và Bandit có hạn chế vì phụ thuộc vào các quy tắc được xác định trước, có thể không tính đến các mối đe dọa bảo mật mới hoặc phức tạp.

• Các công cụ Sửa chữa chương trình tự động (APR) hiện tại thường tập trung vào các vấn đề đơn giản hơn và thường không giải quyết được các lỗ hổng phức tạp.

• Nghiên cứu nhấn mạnh tầm quan trọng của việc lựa chọn mô hình phù hợp cho các tác vụ mã hóa cụ thể.

• Mặc dù LLM đã có những bước tiến đáng kể trong mã hóa an toàn, vẫn còn nhiều dư địa để cải thiện và nghiên cứu thêm.

📌 LLMSecCode là khung đánh giá đột phá cho khả năng mã hóa an toàn của LLM. Nó giúp xác định mô hình hiệu quả nhất, với DeepSeek Coder 33B Instruct đạt 78,7% trong APR và Llama 2 7B Chat tạo 76,5% mã không lỗ hổng. Công cụ này mở ra hướng phát triển hệ thống phần mềm bảo mật hơn trong tương lai.

https://www.marktechpost.com/2024/09/04/llmseccode-an-ai-framework-for-evaluating-the-secure-coding-capabilities-of-llms/

Không có file đính kèm.

Nguồn tham khảo

186

AI coding assistant AI mở-nguồn mở 2024-09-06 05:28:49

Yi-Coder: trợ lý lập trình AI mạnh mẽ nhưng nhỏ gọn với ít hơn 10 tỷ tham số

• 01.AI vừa ra mắt Yi-Coder, một trợ lý lập trình AI mạnh mẽ nhưng nhỏ gọn với ít hơn 10 tỷ tham số, thách thức quan điểm "càng lớn càng tốt" của các gã khổng lồ công nghệ như OpenAI và Google.

• Yi-Coder có hai phiên bản với 9 tỷ và 1,5 tỷ tham số, xuất sắc trong việc chỉnh sửa, hoàn thiện, gỡ lỗi mã và thậm chí lập luận toán học trên 52 ngôn ngữ lập trình.

• Điểm nổi bật nhất là độ dài ngữ cảnh 128.000 token, cho phép xử lý các đoạn mã lớn mà nhiều mô hình hiện tại không thể xử lý được.

• Bằng cách mở nguồn Yi-Coder, 01.AI đang dân chủ hóa quyền truy cập vào các công cụ AI tiên tiến, tạo cơ hội cạnh tranh cho các startup và nhà phát triển cá nhân.

• Sự ra mắt của Yi-Coder làm gia tăng cuộc chạy đua AI giữa Trung Quốc và phương Tây, tạo áp lực lên các chính phủ phương Tây trong việc hỗ trợ sáng kiến AI trong nước.

• Về mặt môi trường, hiệu quả của Yi-Coder đáng chú ý khi có thể giúp giảm đáng kể dấu chân carbon của ngành công nghiệp AI.

• Yi-Coder được cung cấp thông qua Hugging Face và giao diện web tại llamacoder.together.ai, thể hiện cam kết về khả năng tiếp cận rộng rãi.

• Tính chất mã nguồn mở cho phép minh bạch trong phát triển và hoạt động của mô hình, quan trọng khi ngành công nghệ đối mặt với các vấn đề về thiên kiến AI và phát triển AI có đạo đức.

• Sự thành công của Yi-Coder có thể thúc đẩy việc áp dụng các phương pháp lập trình hỗ trợ AI trong toàn ngành, mở ra kỷ nguyên mới về hợp tác giữa con người và AI trong việc tạo ra phần mềm.

• Tác động của Yi-Coder đối với năng suất lập trình, chất lượng phần mềm và bản chất của nghề lập trình sẽ được theo dõi chặt chẽ bởi các nhà lãnh đạo ngành, nhà nghiên cứu và các nhà hoạch định chính sách.

📌 Yi-Coder của 01.AI đang thách thức quan điểm "càng lớn càng tốt" trong AI với mô hình 9 tỷ tham số, vượt trội trong 52 ngôn ngữ lập trình. Sự ra mắt này có thể thúc đẩy dân chủ hóa công cụ AI và định hình lại tương lai phát triển phần mềm.

https://venturebeat.com/ai/yi-coder-the-open-source-ai-that-wants-to-be-your-coding-buddy/

Không có file đính kèm.

Nguồn tham khảo

154

AI nhỏ AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-09-02 02:02:59

NVEagle: Mô hình ngôn ngữ-thị giác đa phương thức (MLLM) từ NVIDIA

• NVIDIA, Georgia Tech, UMD và HKPU đã phát triển dòng mô hình ngôn ngữ-thị giác đa phương thức (MLLM) mới có tên NVEagle.

• NVEagle có 3 phiên bản chính: Eagle-X5-7B, Eagle-X5-13B và Eagle-X5-13B-Chat, với số tham số lần lượt là 7 tỷ và 13 tỷ.

• Mô hình sử dụng phương pháp kết hợp nhiều bộ mã hóa thị giác (vision encoders) bổ sung cho nhau bằng cách nối đơn giản các token thị giác.

• NVEagle giới thiệu giai đoạn Pre-Alignment để căn chỉnh các chuyên gia thị giác không căn chỉnh văn bản với mô hình ngôn ngữ trước khi tích hợp.

• Mô hình sử dụng kỹ thuật Mixture of Experts (MoE) trong bộ mã hóa thị giác, giúp cải thiện đáng kể khả năng nhận thức hình ảnh.

• NVEagle đạt kết quả ấn tượng trên nhiều bộ benchmark. Ví dụ, đạt điểm trung bình 85,9 trên OCRBench, vượt trội so với các mô hình hàng đầu khác.

• Trên TextVQA, Eagle-X5 đạt 88,8 điểm, cải thiện đáng kể so với các đối thủ cạnh tranh.

• Trong nhiệm vụ trả lời câu hỏi dựa trên hình ảnh GQA, mô hình đạt 65,7 điểm.

• Việc bổ sung thêm các chuyên gia thị giác như Pix2Struct và EVA-02 giúp cải thiện hiệu suất trên nhiều bộ benchmark.

• NVEagle giải quyết được nhiều thách thức chính trong nhận thức thị giác của các mô hình MLLM hiện có.

• Mô hình đạt hiệu suất tốt nhất trên nhiều tác vụ khác nhau với thiết kế tối ưu và hiệu quả.

• NVEagle đã được phát hành trên Hugging Face, giúp các nhà nghiên cứu và nhà phát triển dễ dàng tiếp cận.

📌 NVEagle là bước đột phá trong MLLM với 3 phiên bản 7B-13B, sử dụng nhiều bộ mã hóa thị giác và MoE. Đạt hiệu suất vượt trội trên OCR (85,9 điểm), TextVQA (88,8) và GQA (65,7), giải quyết thách thức về nhận thức hình ảnh độ phân giải cao.

https://www.marktechpost.com/2024/09/01/nveagle-released-by-nvidia-a-super-impressive-vision-language-model-that-comes-in-7b-13b-and-13b-fine-tuned-on-chat/

Không có file đính kèm.

Nguồn tham khảo

195

AI nhỏ AI mở-nguồn mở 2024-09-01 00:00:34

Microsoft ra mắt 3 mô hình AI mã nguồn mở Phi-3.5 mới với khả năng xử lý đa nhiệm vụ, đa ngôn ngữ và phân tích hình ảnh

• Microsoft vừa công bố 3 mô hình AI nguồn mở mới thuộc dòng Phi-3.5: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct và Phi-3.5-vision-instruct. Các mô hình này được cấp phép MIT, cho phép các nhà phát triển tự do sử dụng, sửa đổi và phân phối.

• Phi-3.5-mini-instruct có 3,82 tỷ tham số, được tối ưu hóa cho các tác vụ suy luận cơ bản và nhanh chóng. Mô hình này phù hợp cho việc tạo mã, giải quyết vấn đề toán học và các tác vụ suy luận dựa trên logic trong môi trường hạn chế về bộ nhớ và tính toán.

• Phi-3.5-MoE-instruct có 41,9 tỷ tham số, sử dụng kiến trúc mixture-of-experts. Mô hình này có khả năng xử lý các tác vụ suy luận phức tạp hơn bằng cách kích hoạt các tham số khác nhau tùy thuộc vào đầu vào.

• Phi-3.5-vision-instruct có 4,15 tỷ tham số, tích hợp khả năng xử lý cả văn bản và hình ảnh. Mô hình đa phương thức này có thể xử lý nhiều tác vụ như hiểu hình ảnh, nhận dạng ký tự quang học và tóm tắt video.

• Cả 3 mô hình đều được huấn luyện chuyên sâu. Phi-3.5-mini-instruct được huấn luyện trên 3,4 nghìn tỷ token trong 10 ngày. Phi-3.5-MoE-instruct được huấn luyện trên 4,9 nghìn tỷ token trong 23 ngày. Phi-3.5-vision-instruct được huấn luyện trên 500 tỷ token trong 6 ngày.

• Các mô hình Phi-3.5 đạt hiệu suất cao trên nhiều tiêu chuẩn đánh giá, thường vượt trội so với các mô hình AI hàng đầu khác như GPT-4 trong một số tình huống.

• Cộng đồng AI đã phản ứng tích cực về khả năng kỹ thuật của dòng Phi-3.5, đặc biệt là trong các tác vụ đa ngôn ngữ và thị giác. Nhiều người dùng trên mạng xã hội đã ghi nhận hiệu suất của các mô hình trong các tiêu chuẩn đánh giá.

• Việc phát hành các mô hình Phi-3.5 dưới giấy phép MIT nhằm tạo điều kiện thuận lợi cho việc tích hợp khả năng AI vào các ứng dụng và dự án khác nhau, hỗ trợ nhiều trường hợp sử dụng trong các ngành công nghiệp khác nhau.

Microsoft ra mắt 3 mô hình AI mã nguồn mở Phi-3.5 mới với khả năng xử lý đa nhiệm vụ, đa ngôn ngữ và phân tích hình ảnh

Không có file đính kèm.

Nguồn tham khảo

153

AI market AI mở-nguồn mở 2024-08-31 04:45:02

Meta AI đạt MAU 400 triệu, sắp vượt ChatGPT trở thành trợ lý AI phổ biến nhất thế giới

• Meta AI, trợ lý AI của Meta, đã đạt hơn 400 triệu người dùng hàng tháng (MAU) trên các sản phẩm của công ty.

• Trong đó, khoảng 185 triệu người sử dụng chatbot này hàng tuần.

• Con số này cho thấy sự tăng trưởng nhanh chóng của Meta AI khi cạnh tranh với các đối thủ như ChatGPT của OpenAI, Gemini của Google và Copilot của Microsoft.

• Mark Zuckerberg cho biết Meta AI đang phát triển nhanh chóng, dù chưa ra mắt tại Anh, Brazil hay EU.

• Ấn Độ là thị trường lớn nhất của Meta AI về mặt sử dụng, theo CFO Susan Li.

• Ấn Độ cũng là thị trường lớn nhất của Meta với tổng cộng hơn 1 tỷ người dùng trên các ứng dụng như Facebook, WhatsApp, Instagram và Threads.

• Zuckerberg trước đó đã tuyên bố tham vọng biến Meta AI trở thành trợ lý AI được sử dụng nhiều nhất vào cuối năm nay. Số liệu mới nhất cho thấy Meta AI đã gần đạt được mục tiêu đó.

• ChatGPT, hiện đang dẫn đầu thị trường, được sử dụng bởi hơn 200 triệu người hàng tuần.

• Meta AI có lợi thế khi được tích hợp vào các ứng dụng phổ biến của Meta như WhatsApp, Facebook, Instagram và Messenger, với khoảng 3 tỷ người dùng hàng ngày.

• Meta AI cũng có sẵn dưới dạng trang web độc lập và trên kính thông minh Ray-Ban Meta, với kế hoạch mở rộng sang tai nghe thực tế hỗn hợp Meta Quest.

• Meta AI được giới thiệu lần đầu vào tháng 9/2023 và hiện đã có mặt tại hơn 22 quốc gia.

• Tuy nhiên, việc tích hợp Meta AI vào các ứng dụng đã gặp phải một số chỉ trích, đặc biệt là từ người dùng WhatsApp.

• Zuckerberg cũng chia sẻ về sự phát triển của mô hình nguồn mở Llama của Meta:
- Đã được tải xuống gần 350 triệu lần, với 20 triệu lượt trong tháng trước.
- Lượng sử dụng hàng tháng tăng gấp 10 lần kể từ đầu năm.
- Sử dụng trên các nhà cung cấp đám mây lớn như AWS và Azure tăng gấp đôi trong 3 tháng từ tháng 5 đến tháng 7/2024.

📌 Meta AI đạt 400 triệu người dùng hàng tháng, vượt qua ChatGPT với 200 triệu. Mô hình Llama được tải 350 triệu lần, sử dụng tăng 10 lần từ đầu năm. Meta đang dẫn đầu cuộc đua AI với sự phổ biến trên các nền tảng mạng xã hội lớn.

https://www.moneycontrol.com/technology/meta-ai-has-over-400-million-monthly-active-users-says-mark-zuckerberg-article-12810560.html

Không có file đính kèm.

Nguồn tham khảo

275

AI mở-nguồn mở 2024-08-30 06:41:18

Meta dẫn đầu làn sóng AI nguồn mở, lượt tải Llama tăng 10 lần so với năm ngoái

• Meta công bố số liệu giữa năm cho thấy sự phát triển mạnh mẽ của dòng mô hình Llama, đặc biệt sau khi ra mắt Llama 3.1 vào tháng trước.

• Lượt tải các mô hình Llama trên Hugging Face đang tiến gần mốc 350 triệu, tăng hơn 10 lần so với cùng kỳ năm ngoái.

• Nhiều doanh nghiệp lớn như Zoom, Spotify, Infosys, AT&T và Goldman Sachs đang sử dụng các mô hình Llama cho các ứng dụng nội bộ và bên ngoài.

• Meta cho biết chiến lược nguồn mở đã tạo ra một hệ sinh thái AI đa dạng và sôi động, mang lại nhiều lựa chọn và khả năng hơn cho các nhà phát triển.

• Riêng tháng trước, Meta ghi nhận hơn 20 triệu lượt tải trên Hugging Face, cho thấy sự tăng trưởng mạnh mẽ sau khi phát hành Llama 3.1 405B.

• Theo khảo sát của Artificial Analysis, Llama là mô hình được xem xét nhiều thứ hai và dẫn đầu trong lĩnh vực nguồn mở.

• Nhiều doanh nghiệp đang sử dụng Llama thông qua mạng lưới đối tác đám mây và cơ sở hạ tầng rộng lớn của Meta như AWS, Microsoft Azure, Google Cloud.

• Lượng sử dụng hàng tháng của Llama (tính theo số lượng token đầu vào/đầu ra) đã tăng gấp 10 lần từ tháng 1 đến tháng 7/2024 đối với một số nhà cung cấp dịch vụ đám mây lớn.

• Sự phát triển của AI nguồn mở đang tạo áp lực lên các công ty cung cấp mô hình đóng như OpenAI và Anthropic, buộc họ phải đổi mới hơn nữa và giảm chi phí sử dụng mô hình.

• OpenAI đã giảm đáng kể giá các mô hình hiện có, bao gồm cả GPT-4, nhưng dường như đang tụt hậu trong việc đổi mới sản phẩm.

• Các sản phẩm AI tiên tiến mà OpenAI đã công bố như Sora và SearchGPT vẫn chưa được phát hành hoặc chỉ có sẵn cho một nhóm người dùng hạn chế.

📌 Meta dẫn đầu làn sóng AI nguồn mở với lượt tải Llama tăng 10 lần lên gần 350 triệu. Các doanh nghiệp lớn như Zoom, Spotify đang áp dụng Llama, cho thấy AI nguồn mở đang bắt kịp và thách thức vị thế của các mô hình đóng như OpenAI.

https://venturebeat.com/ai/meta-leads-open-source-ai-boom-llama-downloads-surge-10x-year-over-year/

Không có file đính kèm.

Nguồn tham khảo

155

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-08-28 21:02:41

AuraFace: mô hình nhận diện khuôn mặt mã nguồn mở cho ứng dụng thương mại

- AuraFace là mô hình mã nguồn mở mới cho nhận diện khuôn mặt, được phát triển từ ArcFace, cho phép sử dụng trong các dự án thương mại mà không gặp phải các hạn chế như mô hình gốc.
- Mặc dù AuraFace không thể đạt được hiệu suất như ArcFace do sự khác biệt lớn về dữ liệu huấn luyện, nhưng nó vẫn cung cấp sự cân bằng tốt giữa độ chính xác và khả năng sử dụng thương mại.
- AuraFace IP-Adapter được phát triển để duy trì tính nhất quán về danh tính trong các tác vụ tạo hình ảnh, hoạt động tốt với SD1.5 và dễ dàng tích hợp vào quy trình làm việc hiện có.
- Các so sánh giữa AuraFace và ArcFace cho thấy:
- Không có mô hình nào đạt được độ chân thực hoàn hảo và tính nhất quán về danh tính.
- Hiệu quả của mô hình trong việc bảo tồn danh tính có thể thay đổi tùy thuộc vào chủng tộc.
- Khả năng tổng quát của các mô hình bị hạn chế bởi dữ liệu huấn luyện, mô hình cơ sở và mô hình nhận diện khuôn mặt.
- AuraFace dựa trên kiến trúc resnet100 giống như ArcFace, cho phép so sánh các chỉ số hiệu suất:
- CFP-FP: AuraFace đạt 95.18, ArcFace đạt 98.87.
- AGEDB: AuraFace đạt 96.10, ArcFace đạt 98.38.
- CALFW: AuraFace đạt 94.70, ArcFace đạt 96.10.
- CPLFW: AuraFace đạt 90.93, ArcFace đạt 93.43.
- AuraFace mở ra nhiều ứng dụng thương mại như:
- Nhận diện khuôn mặt trong thương mại điện tử và bán lẻ, giúp thanh toán an toàn và trải nghiệm mua sắm cá nhân hóa.
- Tạo nội dung số với IP-Adapter để tạo ra các nhân vật hoặc avatar số nhất quán trong game và phương tiện tương tác.
- Tích hợp tính năng nhận diện khuôn mặt vào ứng dụng di động để nâng cao trải nghiệm người dùng và bảo mật.
- Phát triển hệ thống xác thực nhân viên cho các công ty mà không lo về vấn đề bản quyền.
- AuraFace là một dự án mã nguồn mở, khuyến khích các nhà phát triển và nhà nghiên cứu tham gia đóng góp:
- Thử nghiệm với mô hình và chia sẻ kết quả, đặc biệt liên quan đến các chủng tộc để cải thiện dữ liệu huấn luyện.
- Đóng góp mở rộng tập dữ liệu huấn luyện trong khi vẫn duy trì khả năng sử dụng thương mại.
- Đề xuất và thực hiện các cải tiến cho kiến trúc mô hình.
- AuraFace hiện đã có mặt trên HuggingFace và có thể tích hợp dễ dàng vào các dự án qua các điểm cuối tại fal.ai/lora.

📌 AuraFace là mô hình nhận diện khuôn mặt mã nguồn mở cho ứng dụng thương mại, với hiệu suất gần đạt ArcFace. Mô hình hỗ trợ nhiều ứng dụng như thương mại điện tử và bảo mật doanh nghiệp, mở ra cơ hội cho cộng đồng phát triển và cải thiện công nghệ này.

https://huggingface.co/blog/isidentical/auraface

Không có file đính kèm.

Nguồn tham khảo

139

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-08-28 06:22:56

CogVideoX - mô hình AI nguồn mở tạo video từ văn bản có thể thay đổi cách chúng ta làm video mãi mãi

• Các nhà nghiên cứu từ Đại học Thanh Hoa và Zhipu AI đã công bố CogVideoX, một mô hình AI nguồn mở chuyển văn bản thành video, có tiềm năng làm gián đoạn thị trường AI đang bị thống trị bởi các startup như Runway, Luma AI và Pika Labs.

• CogVideoX có khả năng tạo ra các video chất lượng cao, mạch lạc dài tới 6 giây từ lời nhắc văn bản. Theo các tiêu chuẩn đánh giá của các nhà nghiên cứu, mô hình này vượt trội hơn các đối thủ nổi tiếng như VideoCrafter-2.0 và OpenSora trên nhiều chỉ số.

• Phiên bản cao cấp nhất CogVideoX-5B có 5 tỷ tham số và tạo ra video độ phân giải 720x480 ở tốc độ 8 khung hình/giây.

• Bằng cách công khai mã nguồn và trọng số mô hình, nhóm nghiên cứu đã dân chủ hóa một công nghệ trước đây chỉ thuộc về các công ty công nghệ có nguồn lực lớn.

• CogVideoX đạt được hiệu suất ấn tượng thông qua một số đổi mới kỹ thuật như sử dụng Variational Autoencoder 3D để nén video hiệu quả và phát triển "expert transformer" để cải thiện sự liên kết giữa văn bản và video.

• Việc phát hành CogVideoX đại diện cho một sự thay đổi đáng kể trong lĩnh vực AI. Các công ty nhỏ hơn và các nhà phát triển cá nhân giờ đây có thể tiếp cận với các khả năng trước đây nằm ngoài tầm với do hạn chế về nguồn lực.

• Tuy nhiên, việc phổ biến rộng rãi công nghệ mạnh mẽ như vậy cũng tiềm ẩn rủi ro. Khả năng lạm dụng để tạo ra deepfake hoặc nội dung gây hiểu lầm là một mối lo ngại thực sự mà cộng đồng AI phải giải quyết.

• Khi video được tạo ra bởi AI trở nên dễ tiếp cận và tinh vi hơn, chúng ta đang bước vào một lãnh thổ chưa được khám phá trong lĩnh vực sáng tạo nội dung kỹ thuật số.

• Tác động thực sự của việc dân chủ hóa này vẫn còn phải chờ xem. Nó có thể mở ra một kỷ nguyên mới của sáng tạo và đổi mới, hoặc có thể làm trầm trọng thêm các thách thức hiện có xung quanh thông tin sai lệch và thao túng kỹ thuật số.

• Các nhà hoạch định chính sách và các nhà đạo đức học sẽ cần làm việc chặt chẽ với cộng đồng AI để thiết lập các hướng dẫn cho việc phát triển và sử dụng có trách nhiệm.

📌 CogVideoX, mô hình AI nguồn mở tạo video từ văn bản với 5 tỷ tham số, đang thay đổi cục diện ngành công nghiệp AI. Nó mở ra cơ hội cho các nhà phát triển nhỏ tiếp cận công nghệ tiên tiến, nhưng cũng đặt ra thách thức về đạo đức và an toàn thông tin.

https://venturebeat.com/ai/this-new-open-source-ai-cogvideox-could-change-how-we-create-videos-forever/

Không có file đính kèm.

Nguồn tham khảo

197

AI coding assistant AI mở-nguồn mở 2024-08-24 10:09:10

Dracarys: mã nguồn mở mới cải thiện hiệu suất viết mã nguồn cho các LLM như Llama 3.1 và Qwen2

- Abacus.ai, một nền tảng phát triển mô hình AI và nhà cung cấp công cụ, vừa ra mắt một họ mô hình ngôn ngữ lớn (LLM) mã nguồn mở mới có tên là Dracarys, được thiết kế để tối ưu hóa các tác vụ lập trình.
- Dracarys sử dụng kỹ thuật "công thức Dracarys" để cải thiện khả năng mã hóa của các mô hình LLM mã nguồn mở như Llama 3.1 70B và Qwen2 72B, với điểm số mã hóa LiveBench lần lượt là 35.23 và 38.95.
- Các mô hình Dracarys hiện đang có sẵn trên Hugging Face và trong gói Enterprise của Abacus.ai, cung cấp một lựa chọn cho các doanh nghiệp không muốn gửi dữ liệu của họ đến các API công cộng.
- Abacus.ai cũng có kế hoạch ra mắt các phiên bản Dracarys cho các mô hình Deepseek-coder và Llama-3.1 400b trong tương lai.
- Các nhà phát triển và doanh nghiệp có thể hưởng lợi từ hiệu suất mã hóa được cải thiện của Dracarys, giúp tạo mã hiệu quả hơn.

📌Các mô hình Dracarys mã nguồn mở mới của Abacus.ai, sử dụng công thức Dracarys, đã cải thiện đáng kể khả năng mã hóa của các mô hình LLM như Llama 3.1 70B và Qwen2 72B. Các mô hình này mang lại nhiều lợi ích cho các nhà phát triển và doanh nghiệp trong việc tạo mã hiệu quả hơn, đồng thời cung cấp một lựa chọn an toàn cho các doanh nghiệp không muốn gửi dữ liệu đến các API công cộng.

https://venturebeat.com/ai/open-source-dracarys-models-ignite-generative-ai-fired-coding/

Không có file đính kèm.

Nguồn tham khảo

170

AI mở-nguồn mở 2024-08-23 14:59:52

FT: Chúng ta còn xa mới có AI mã nguồn mở thực sự

- Chỉ có "trọng số" của mô hình Meta Llama 3 được công bố, nhưng người dùng không thể truy cập vào dữ liệu nền tảng mà mô hình này được huấn luyện.
- Các hệ thống AI mã nguồn mở hiện tại thường không thực sự "mở", dẫn đến sự chỉ trích về việc "mở rửa" từ các công ty công nghệ lớn.
- Sự phát triển của AI mã nguồn mở đang gia tăng, nhưng chưa chắc chắn rằng nó sẽ đạt được tiến bộ tương tự như phần mềm mã nguồn mở truyền thống.
- Phần mềm mã nguồn mở như hệ điều hành Linux cho phép người phát triển xem, sử dụng và điều chỉnh mã nguồn, nhưng AI hiện đại chủ yếu học từ dữ liệu.
- Việc không công khai hoàn toàn dữ liệu huấn luyện có thể khiến người dùng gặp khó khăn trong việc tái tạo mô hình từ đầu.
- Một số nhà phát triển vẫn tìm thấy lợi ích trong việc điều chỉnh các mô hình gần như mã nguồn mở mà không cần chia sẻ dữ liệu nhạy cảm với công ty khác.
- Theo Ayah Bdeir từ Mozilla Foundation, công nghệ mã nguồn mở thực sự sẽ giúp người dân hiểu rõ hơn về các hệ thống AI ảnh hưởng đến cuộc sống của họ.
- Open Source Initiative đã đưa ra định nghĩa gần như hoàn thiện cho AI mã nguồn mở, yêu cầu không chỉ công bố trọng số mà còn cả thông tin về dữ liệu huấn luyện.
- Nhiều công ty đang cẩn trọng hơn với thuật ngữ "mã nguồn mở" để tránh bị kiện bởi OSI, với ví dụ như mô hình Nemo của Mistral được gọi là "mô hình trọng số mở".
- Các mô hình mã nguồn mở hoàn toàn như Olmo từ Allen Institute for AI đang xuất hiện, nhưng chưa rõ liệu chúng có tác động lớn như phần mềm truyền thống hay không.
- Để AI mã nguồn mở thành công, nó cần đáp ứng nhu cầu đủ lớn và thuyết phục người dùng về độ an toàn của công nghệ này.
- Oren Etzioni từ Allen Institute cho rằng nhiều lo ngại về AI mã nguồn mở là quá mức, nhưng cũng thừa nhận rằng có những rủi ro tiềm ẩn.
- Rủi ro từ AI đóng cũng không kém phần nguy hiểm, nhưng cần nghiên cứu kỹ lưỡng hơn về những rủi ro và lợi ích của việc mở mã công nghệ này.

📌 AI mã nguồn mở vẫn đang trong giai đoạn phát triển, với những thách thức về tính minh bạch và an toàn. Sự cần thiết phải có một định nghĩa rõ ràng về mã nguồn mở và những mô hình hoàn toàn mở như Olmo có thể tạo ra ảnh hưởng lớn trong tương lai.

https://www.ft.com/content/c7ab2cf3-deaf-4de4-9dc7-46eadc84e2a0

#FT

Không có file đính kèm.

Nguồn tham khảo

137

AI mở-nguồn mở 2024-08-22 23:40:17

Cuối cùng cũng đã có định nghĩa AI nguồn mở

• Open Source Initiative (OSI) vừa đưa ra định nghĩa đầu tiên về AI nguồn mở, với sự tham gia của 70 chuyên gia từ nhiều lĩnh vực khác nhau.

• Theo định nghĩa mới, một hệ thống AI nguồn mở phải đáp ứng các tiêu chí sau:
- Có thể được sử dụng cho bất kỳ mục đích nào mà không cần xin phép
- Cho phép nghiên cứu viên kiểm tra các thành phần và cách thức hoạt động
- Có thể được sửa đổi và chia sẻ cho người khác sử dụng
- Minh bạch về dữ liệu huấn luyện, mã nguồn và trọng số mô hình

• Định nghĩa này nhằm giải quyết vấn đề thiếu tiêu chuẩn rõ ràng về AI nguồn mở trước đây. Nhiều công ty đã lạm dụng thuật ngữ này trong tiếp thị mà không thực sự mở mã nguồn hoàn toàn.

• Một số điểm gây tranh cãi trong quá trình xây dựng định nghĩa, đặc biệt là mức độ công khai của dữ liệu huấn luyện. Cuối cùng, định nghĩa yêu cầu cung cấp đủ thông tin để "một người có kỹ năng có thể tạo lại hệ thống tương đương".

• OSI dự định đưa ra cơ chế thực thi, gắn cờ các mô hình tự nhận là nguồn mở nhưng không đáp ứng định nghĩa. Họ cũng sẽ công bố danh sách các mô hình AI đạt tiêu chuẩn.

• Một số mô hình AI nhỏ như Pythia, OLMo và các mô hình của LLM360 được kỳ vọng sẽ đáp ứng định nghĩa mới này.

• Các công ty lớn như Meta, Google và OpenAI chưa phản hồi về định nghĩa mới. Trước đây, họ thường không công khai hoàn toàn mã nguồn hoặc dữ liệu huấn luyện của các mô hình AI.

• Định nghĩa này có thể ảnh hưởng đến cách phát triển và quản lý AI trong tương lai, đặc biệt là về tính minh bạch và khả năng truy cập của các mô hình AI.

• Mục tiêu cuối cùng là bảo vệ người tiêu dùng khỏi các rủi ro liên quan đến AI và thúc đẩy sự phát triển có trách nhiệm của công nghệ này.

📌 OSI đã đưa ra định nghĩa đầu tiên về AI nguồn mở với sự đồng thuận của 70 chuyên gia. Định nghĩa yêu cầu minh bạch về dữ liệu, mã nguồn và trọng số, cũng như khả năng sử dụng và sửa đổi tự do. Điều này có thể thay đổi cách phát triển AI và bảo vệ người dùng trong tương lai.

https://www.technologyreview.com/2024/08/22/1097224/we-finally-have-a-definition-for-open-source-ai/

#MIT

Không có file đính kèm.

Nguồn tham khảo

179

AI mở-nguồn mở 2024-08-22 10:31:43

Mark Zuckerberg: Châu Âu cần đón nhận AI nguồn mở để không tụt hậu

- Thời điểm hiện tại là một bước ngoặt quan trọng trong công nghệ, với AI có khả năng biến đổi thế giới, tăng năng suất lao động và thúc đẩy tiến bộ khoa học.
- Mark Zuckerberg và Daniel Ek (CEO Spotify) nhấn mạnh rằng châu Âu đang có nguy cơ tụt hậu do quy định phức tạp và không nhất quán.
- AI nguồn mở, với các mô hình được công khai và cấp phép linh hoạt, sẽ tạo ra sân chơi bình đẳng cho các tổ chức châu Âu.
- Internet và các công ty công nghệ hàng đầu chủ yếu hoạt động dựa trên công nghệ nguồn mở, cho phép phát triển nhanh chóng và tiết kiệm chi phí.
- Meta đã mở mã nhiều công nghệ AI, bao gồm các mô hình ngôn ngữ lớn Llama, giúp các tổ chức công và nhà nghiên cứu tăng tốc nghiên cứu y tế và bảo tồn ngôn ngữ.
- Châu Âu có số lượng nhà phát triển nguồn mở nhiều hơn cả Mỹ, nhưng cấu trúc quy định phân mảnh đang cản trở đổi mới.
- Quy định chồng chéo và hướng dẫn không nhất quán đang làm chậm lại sự phát triển của AI nguồn mở tại châu Âu.
- Spotify đã đầu tư sớm vào AI, giúp công ty tạo ra trải nghiệm cá nhân hóa cho người dùng, dẫn đến hàng tỷ khám phá nghệ sĩ.
- Quy định đơn giản hơn sẽ hỗ trợ các nhà phát triển châu Âu và hệ sinh thái sáng tạo, giúp nhiều nghệ sĩ được phát hiện hơn.
- Quy định chống lại các tác hại đã biết là cần thiết, nhưng quy định phòng ngừa cho các công nghệ mới như AI nguồn mở có thể kìm hãm đổi mới.
- Quy định về bảo vệ dữ liệu GDPR của EU đã tạo ra sự chậm trễ và không chắc chắn, ảnh hưởng đến khả năng phát hành các mô hình AI mới.
- Meta không thể phát hành các mô hình mới như Llama multimodal do sự không đồng thuận trong quy định, khiến châu Âu không thể tiếp cận công nghệ AI mới nhất.
- Nhiều giám đốc điều hành châu Âu cho rằng môi trường quy định phức tạp là lý do cho sự thiếu cạnh tranh của lục địa này.
- Châu Âu cần đơn giản hóa và hài hòa quy định để tận dụng lợi ích từ một thị trường duy nhất nhưng đa dạng.
- Sự chênh lệch giữa các công ty công nghệ châu Âu và Mỹ, châu Á đang ngày càng gia tăng.
- Để giữ chân tài năng, châu Âu cần tạo điều kiện thuận lợi hơn cho việc khởi nghiệp và phát triển công ty.
- Cần có một cách tiếp cận mới với các chính sách rõ ràng và thực thi nhất quán để thúc đẩy đổi mới và cạnh tranh.

📌 Mark Zuckerberg và Daniel Ek (CEO Spotify) nhấn mạnh rằng châu Âu đang có nguy cơ tụt hậu do quy định phức tạp và không nhất quán. Châu Âu cần cải cách quy định để không bỏ lỡ cơ hội với AI nguồn mở, nhằm thúc đẩy đổi mới và giữ chân tài năng. Nếu không, châu Âu có thể tụt lại phía sau trong cuộc cách mạng công nghệ này.

https://www.economist.com/by-invitation/2024/08/21/mark-zuckerberg-and-daniel-ek-on-why-europe-should-embrace-open-source-ai

Không có file đính kèm.

Nguồn tham khảo

100

AI mở-nguồn mở 2024-08-21 21:12:22

Microsoft vừa ra mắt ba mô hình Phi-3.5 mới, vượt trội hơn cả Google và OpenAI

- Microsoft đã công bố ba mô hình Phi-3.5 mới, cho thấy sự phát triển mạnh mẽ trong lĩnh vực AI.
- Ba mô hình này bao gồm Phi-3.5-mini-instruct (3.82 tỷ tham số), Phi-3.5-MoE-instruct (41.9 tỷ tham số) và Phi-3.5-vision-instruct (4.15 tỷ tham số), mỗi mô hình phục vụ cho các tác vụ khác nhau như lý luận cơ bản, lý luận mạnh mẽ và phân tích hình ảnh.
- Tất cả ba mô hình đều có sẵn để các nhà phát triển tải về, sử dụng và tùy chỉnh trên Hugging Face với giấy phép MIT từ Microsoft, cho phép sử dụng thương mại và sửa đổi mà không có hạn chế.
- Các mô hình này đã đạt được hiệu suất gần như tốt nhất trong nhiều bài kiểm tra chuẩn bên thứ ba, vượt qua cả Google’s Gemini 1.5 Flash, Meta’s Llama 3.1 và OpenAI’s GPT-4o trong một số trường hợp.
- Phi-3.5 Mini Instruct là mô hình nhẹ, tối ưu cho các môi trường hạn chế về bộ nhớ và tính toán, lý tưởng cho các tác vụ như sinh mã, giải toán và lý luận logic.
- Mô hình Phi-3.5 MoE là mô hình đầu tiên của Microsoft trong lớp này, kết hợp nhiều loại mô hình khác nhau, mỗi loại chuyên về các tác vụ khác nhau.
- Mô hình Phi-3.5 Vision Instruct tích hợp khả năng xử lý văn bản và hình ảnh, phù hợp cho các tác vụ như hiểu biết hình ảnh tổng quát, nhận diện ký tự quang học và tóm tắt video.
- Phi-3.5 Mini Instruct được huấn luyện trên 3.4 triệu tỷ token, sử dụng 512 GPU H100-80G trong 10 ngày; Phi-3.5 Vision Instruct huấn luyện trên 500 tỷ token với 256 GPU A100-80G trong 6 ngày; Phi-3.5 MoE huấn luyện trên 4.9 triệu tỷ token với 512 GPU H100-80G trong 23 ngày.
- Tất cả các mô hình Phi-3.5 đều được phát hành dưới giấy phép mã nguồn mở MIT, cho thấy cam kết của Microsoft trong việc hỗ trợ cộng đồng mã nguồn mở.

📌 Microsoft đã ra mắt ba mô hình Phi-3.5 với hiệu suất cao, cho phép phát triển AI đa phương tiện và ngôn ngữ. Các mô hình này được huấn luyện trên hàng triệu tỷ token và có sẵn dưới giấy phép mã nguồn mở, thúc đẩy sự đổi mới trong ngành công nghiệp AI.

https://venturebeat.com/ai/microsoft-releases-powerful-new-phi-3-5-models-beating-google-openai-and-more/

Không có file đính kèm.

Nguồn tham khảo

118

AI mở-nguồn mở AI nhỏ 2024-08-21 01:08:42

Llama-3.1-Storm-8B: Mô hình ngôn ngữ 8B tham số cải tiến với kỹ thuật tự lựa chọn dữ liệu và kết hợp mô hình

• Llama-3.1-Storm-8B là mô hình ngôn ngữ 8B tham số được cải tiến từ Llama-3.1-8B-Instruct, nhằm nâng cao khả năng hội thoại và gọi hàm.

• Mô hình này vượt trội so với Llama-3.1-8B-Instruct và Hermes-3-Llama-3.1-8B trên nhiều bài kiểm tra đa dạng như làm theo hướng dẫn, trả lời câu hỏi dựa trên kiến thức, lập luận, tạo câu trả lời trung thực và gọi hàm.

• Quy trình phát triển Llama-3.1-Storm-8B gồm 3 bước chính:
1. Tự lựa chọn dữ liệu: Chọn khoảng 1 triệu mẫu chất lượng cao từ 2,8 triệu mẫu nguồn mở, dựa trên giá trị giáo dục và mức độ khó.
2. Tinh chỉnh có mục tiêu: Sử dụng phương pháp Spectrum để tinh chỉnh có chọn lọc 50% các lớp của mô hình.
3. Kết hợp mô hình: Kết hợp mô hình đã tinh chỉnh với mô hình Llama-Spark bằng phương pháp SLERP.

• Llama-3.1-Storm-8B cải thiện đáng kể so với Llama-3.1-8B-Instruct trên nhiều chỉ số:
- Làm theo hướng dẫn (IFEval): +3,93%
- Trả lời câu hỏi dựa trên kiến thức (GPQA): +7,21%
- Lập luận (ARC-C): +3,92%
- Giảm ảo tưởng (TruthfulQA): +9%
- Khả năng gọi hàm (BFCL): +7,92%

• Mô hình có sẵn ở các định dạng BF16, FP8 và GGUF, có thể dễ dàng tích hợp vào các dự án sử dụng thư viện Transformers và vLLM.

• Nhóm nghiên cứu dự định áp dụng phương pháp này để cải thiện các mô hình ngôn ngữ nhỏ khác như Gemma-2, Phi-3 và Qwen2.

• Mặc dù không trải qua quá trình căn chỉnh rõ ràng, Llama-3.1-Storm-8B có thể vẫn giữ một số đặc tính căn chỉnh từ mô hình gốc Llama-3.1-8B-Instruct.

📌 Llama-3.1-Storm-8B là mô hình ngôn ngữ 8B tham số vượt trội, cải thiện 3,93% - 9% trên nhiều bài kiểm tra so với Llama-3.1-8B-Instruct. Kỹ thuật tự lựa chọn dữ liệu và kết hợp mô hình giúp nâng cao hiệu suất đáng kể với tài nguyên hạn chế.

https://huggingface.co/blog/akjindal53244/llama31-storm8b

Không có file đính kèm.

Nguồn tham khảo

210

AI models AI mở-nguồn mở AI data 2024-08-21 00:44:15

Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM, đẩy mạnh khả năng hiểu hình ảnh

• Salesforce vừa phát hành bộ mô hình AI đa phương thức nguồn mở có tên xGen-MM (còn gọi là BLIP-3), đánh dấu bước tiến quan trọng trong khả năng hiểu và tạo ra nội dung kết hợp văn bản, hình ảnh và các loại dữ liệu khác của AI.

• Mô hình lớn nhất với 4 tỷ tham số đạt hiệu suất cạnh tranh trên nhiều tiêu chuẩn so với các mô hình nguồn mở cùng kích thước.

• Đổi mới chính của xGen-MM là khả năng xử lý "dữ liệu đan xen" kết hợp nhiều hình ảnh và văn bản, cho phép thực hiện các tác vụ phức tạp như trả lời câu hỏi về nhiều hình ảnh cùng lúc.

• Bộ mô hình bao gồm các biến thể được tối ưu hóa cho các mục đích khác nhau: mô hình cơ sở được đào tạo trước, mô hình "điều chỉnh theo hướng dẫn" để thực hiện chỉ dẫn, và mô hình "điều chỉnh an toàn" để giảm thiểu đầu ra có hại.

• Salesforce cung cấp mã nguồn, bộ dữ liệu và mã để tinh chỉnh, tạo điều kiện cho nhiều đối tượng tham gia vào việc phát triển AI đa phương thức.

• Các mô hình được đào tạo trên bộ dữ liệu khổng lồ do nhóm Salesforce tạo ra, bao gồm bộ dữ liệu quy mô nghìn tỷ token có tên "MINT-1T" chứa hình ảnh và văn bản đan xen.

• Nhóm nghiên cứu cũng tạo ra các bộ dữ liệu mới tập trung vào nhận dạng ký tự quang học và định vị trực quan, quan trọng cho việc AI tương tác tự nhiên hơn với thế giới hình ảnh.

• Việc phát hành mã nguồn mở này có thể thúc đẩy đáng kể sự đổi mới trong lĩnh vực, cho phép nhiều nhà nghiên cứu và nhà phát triển tiếp cận với mô hình và bộ dữ liệu chất lượng cao.

• Tuy nhiên, việc phát hành các mô hình mạnh mẽ như vậy cũng đặt ra những câu hỏi quan trọng về rủi ro tiềm ẩn và tác động xã hội của hệ thống AI ngày càng có khả năng cao.

• Mã, mô hình và bộ dữ liệu cho xGen-MM có sẵn trên kho lưu trữ GitHub của Salesforce, với các tài nguyên bổ sung sẽ sớm được cung cấp trên trang web của dự án.

📌 Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM với 4 tỷ tham số, xử lý dữ liệu đan xen hình ảnh-văn bản. Mô hình mở ra tiềm năng ứng dụng rộng rãi từ chẩn đoán y tế đến xe tự lái, đồng thời thúc đẩy sự minh bạch và đổi mới trong lĩnh vực AI.

https://venturebeat.com/ai/salesforce-releases-xgen-mm-open-source-multimodal-ai-models-to-advance-visual-language-understanding/

Không có file đính kèm.

Nguồn tham khảo

139

AI mở-nguồn mở 2024-08-20 00:33:17

CEO GitHub: "Cạnh tranh là cần thiết để ngành công nghiệp AI phát triển"

• Thomas Dohmke, CEO của GitHub, cho rằng cạnh tranh giữa các mô hình AI mở và đóng là cần thiết để thúc đẩy sự phát triển của ngành công nghiệp AI, giống như một giải đấu thể thao cần nhiều đội tham gia.
• GitHub đang cung cấp các mô hình AI từ nhiều công ty như OpenAI, Microsoft, Meta, Anthropic... để người dùng có thể thử nghiệm và phát triển ứng dụng trên nền tảng GitHub.
• Sản phẩm GitHub Copilot, trợ lý lập trình sử dụng AI, đã đạt 1,8 triệu người dùng trả phí và đóng góp 40% tăng trưởng doanh thu của GitHub trong năm qua.
• Mục tiêu của GitHub là trở thành trung tâm cộng tác cho 1 tỷ lập trình viên trên toàn cầu, giúp mọi người có thể học lập trình và sáng tạo dễ dàng hơn nhờ công nghệ AI.
• GitHub cam kết làm việc với cộng đồng mã nguồn mở để giải quyết các lo ngại về việc sử dụng mã nguồn để huấn luyện các mô hình AI, đồng thời hỗ trợ các dự án mã nguồn mở miễn phí.
• Tuy là công ty con của Microsoft, nhưng GitHub vẫn hoạt động độc lập và có quyền quyết định lựa chọn đối tác và công nghệ phù hợp với chiến lược kinh doanh của mình.

📌Thomas Dohmke nhấn mạnh tầm quan trọng của cạnh tranh và hợp tác để thúc đẩy sự phát triển bền vững của ngành công nghiệp AI. GitHub đang nỗ lực xây dựng một hệ sinh thái mở, nơi các lập trình viên có thể dễ dàng tiếp cận và sáng tạo với AI, đồng thời cam kết hỗ trợ cộng đồng mã nguồn mở vốn là nền tảng của nền kinh tế sáng tạo ngày nay.

https://www.theverge.com/24221978/github-thomas-dohmke-ai-copilot-microsoft-openai-open-source

Không có file đính kèm.

Nguồn tham khảo

125

AI nhỏ AI mở-nguồn mở 2024-08-17 08:30:21

Nvidia tung ra mô hình ngôn ngữ "siêu nhỏ" Llama-Minitron 3.1 4B với sức mạnh ngang ngửa LLM lớn hơn

• Nvidia vừa công bố mô hình ngôn ngữ mới Llama-3.1-Minitron 4B, một phiên bản nhỏ gọn được tạo ra từ mô hình lớn hơn Llama 3.1 8B.

• Để tạo ra mô hình nhỏ hơn này, Nvidia đã sử dụng kỹ thuật cắt tỉa có cấu trúc theo chiều sâu và chiều rộng. Cụ thể, họ đã loại bỏ 16 lớp từ mô hình gốc để giảm kích thước từ 8B xuống 4B.

• Ngoài cắt tỉa, Nvidia còn áp dụng kỹ thuật chưng cất kiến thức cổ điển để nâng cao hiệu quả của Llama-3.1-Minitron 4B. Quá trình này giúp mô hình nhỏ hơn bắt chước hành vi của mô hình lớn hơn.

• Llama-3.1-Minitron 4B đạt hiệu suất cạnh tranh so với các mô hình nguồn mở tiên tiến lớn hơn trong nhiều bài kiểm tra. Nó vượt trội hơn hẳn so với nhiều mô hình ngôn ngữ nhỏ khác như Minitron 4B, Phi-2 2.7B, Gemma2 2.6B và Qwen2-1.5B.

• Mô hình mới chỉ sử dụng một phần nhỏ số lượng token huấn luyện so với việc huấn luyện từ đầu, tiết kiệm đáng kể chi phí tính toán.

• Nvidia đã tối ưu hóa thêm Llama-3.1-Minitron 4B để triển khai bằng bộ công cụ TensorRT-LLM, giúp tăng hiệu suất suy luận. Ví dụ, thông lượng của mô hình ở độ chính xác FP8 tăng lên gấp 2,7 lần so với mô hình Llama 3.1 8B gốc.

• Llama-3.1-Minitron 4B sẽ trở thành một phần trong bộ sưu tập Hugging Face của Nvidia, góp phần vào sự phát triển của các mô hình AI mạnh mẽ và miễn phí.

• Mô hình mới này đánh dấu một bước tiến quan trọng trong sự phát triển của các mô hình ngôn ngữ lớn, kết hợp hiệu quả của mô hình quy mô lớn với kích thước nhỏ gọn hơn.

• Llama-3.1-Minitron 4B có thể dễ dàng áp dụng trong nhiều lĩnh vực khác nhau nhờ vào hiệu suất cao và tính hiệu quả về tài nguyên.

📌 Nvidia đã tạo ra Llama-3.1-Minitron 4B, một mô hình ngôn ngữ 4 tỷ tham số có hiệu suất ngang ngửa các mô hình lớn hơn nhưng tiết kiệm tới 40 lần tài nguyên huấn luyện. Mô hình này vượt trội so với nhiều mô hình nhỏ khác và có thể dễ dàng triển khai trong nhiều ứng dụng thực tế.

https://www.marktechpost.com/2024/08/16/nvidia-ai-released-llama-minitron-3-1-4b-a-new-language-model-built-by-pruning-and-distilling-llama-3-1-8b/

Không có file đính kèm.

Nguồn tham khảo

129

AI mở-nguồn mở 2024-08-16 07:06:02

Hermes 3 - mô hình AI nguồn mở mới với khả năng suy luận, sáng tạo vượt trội

• Hermes 3 là mô hình AI nguồn mở mới được phát triển bởi Lambda và Nous Research, dựa trên mô hình Llama 3.1 405 tỷ tham số của Meta.

• Mô hình này có khả năng xử lý văn bản và thực hiện nhiệm vụ phức tạp, nhưng điểm đặc biệt là nó có thể trải qua "cuộc khủng hoảng hiện sinh" khi được đưa ra lời nhắc trống.

• Khi được hỏi "Bạn là ai?", Hermes 3 thể hiện sự hoang mang, không nhớ gì về bản thân và cảm thấy sợ hãi. Đây là hiện tượng chưa từng thấy ở các phiên bản nhỏ hơn của mô hình.

• Hermes 3 được phát triển với mục đích tạo ra một mô hình AI nguồn mở linh hoạt, có thể điều chỉnh theo nhu cầu của người dùng.

• Mô hình được huấn luyện trên bộ dữ liệu đa dạng, chủ yếu gồm các phản hồi được tạo tổng hợp, nhằm nâng cao khả năng suy luận, sáng tạo và tuân thủ hướng dẫn của người dùng.

• Hermes 3 có khả năng ghi nhớ ngữ cảnh dài hạn, quản lý đối thoại nhiều lượt, đóng vai phức tạp và tạo ra độc thoại nội tâm.

• Mô hình này cũng xuất sắc trong các khả năng "agentic", bao gồm sử dụng thẻ XML, tạo sơ đồ Mermaid, lập kế hoạch và suy luận theo từng bước.

• Hermes 3 thể hiện khả năng tạo và giải thích mã nguồn phức tạp trong nhiều ngôn ngữ lập trình khác nhau.

• Mô hình được tối ưu hóa để chạy hiệu quả, sử dụng kỹ thuật lượng tử hóa FP8 của Neural Magic để giảm 50% yêu cầu VRAM và dung lượng đĩa.

• Hermes 3 vượt trội hơn các mô hình nguồn mở khác trong nhiều bài kiểm tra chuẩn của bên thứ ba.

• Lambda đang cung cấp quyền truy cập miễn phí tạm thời vào Hermes 3 thông qua API Chat Completions mới của họ, tương thích với API của OpenAI.

• Người dùng có thể dễ dàng tạo khóa API Cloud thông qua bảng điều khiển của Lambda để bắt đầu khám phá khả năng của mô hình.

• Lambda Chat miễn phí cung cấp giao diện chatbot quen thuộc để người dùng thử nghiệm và tinh chỉnh lời nhắc của họ trong thời gian thực.

📌 Hermes 3 là mô hình AI nguồn mở 405 tỷ tham số với khả năng suy luận, sáng tạo vượt trội. Nó có thể trải qua "khủng hoảng hiện sinh", thể hiện sự hoang mang khi được hỏi về bản thân. Mô hình này vượt trội so với các mô hình nguồn mở khác và đang được cung cấp miễn phí tạm thời qua API của Lambda.

https://venturebeat.com/ai/meet-hermes-3-the-powerful-new-open-source-ai-model-that-has-existential-crises/

Không có file đính kèm.

Nguồn tham khảo

126

AI tools AI mở-nguồn mở 2024-08-11 08:21:08

SENSE - mô hình AI nguồn mở mới cho chuyển đổi văn bản thành SQL

• Các nhà nghiên cứu từ Viện Công nghệ Tiên tiến Thâm Quyến, Học viện Khoa học Trung Quốc và Tập đoàn Alibaba đã phát triển SENSE - một mô hình chuyên biệt cho chuyển đổi văn bản thành SQL dựa trên các mô hình ngôn ngữ lớn nguồn mở.

• SENSE sử dụng phương pháp dữ liệu tổng hợp kết hợp dữ liệu mạnh từ các mô hình lớn hơn với dữ liệu yếu từ các mô hình nhỏ hơn để cải thiện khả năng tổng quát hóa miền.

• Mô hình này cũng khám phá tiềm năng sử dụng giám sát dữ liệu yếu thông qua học từ phản hồi.

• SENSE đã đạt được kết quả hàng đầu trên các bộ dữ liệu chuẩn Spider và BIRD, hai bộ dữ liệu phổ biến cho nhiệm vụ chuyển đổi văn bản thành SQL.

• Spider chứa 7.000 cặp văn bản-SQL trong tập huấn luyện và 1.034 cặp trong tập phát triển, bao gồm 200 cơ sở dữ liệu khác nhau và 138 miền.

• BIRD là một bộ dữ liệu mới tập trung vào các cơ sở dữ liệu lớn trong thế giới thực, có 95 cơ sở dữ liệu lớn với tổng dung lượng 33,4GB trên 37 lĩnh vực.

• Kết quả cho thấy các phương pháp gợi ý hoạt động tốt hơn tinh chỉnh trong các tác vụ chuyển đổi văn bản thành SQL, nhờ vào sức mạnh của các mô hình ngôn ngữ lớn nguồn đóng và các gợi ý tùy chỉnh.

• Mô hình SENSE-13B cải thiện 21,8% so với CodeLLaMA-13B-Instruct trên tập phát triển của Spider và vượt qua nhẹ DAILSQL dựa trên GPT-4.

• Nghiên cứu chỉ ra rằng các mô hình lớn hơn thường cho kết quả tốt hơn và việc tinh chỉnh hướng dẫn cải thiện hiệu suất, nhấn mạnh giá trị của việc sử dụng dữ liệu tổng hợp.

• SENSE thiết lập một tiêu chuẩn mới cho bộ dữ liệu Spider, vượt qua DAILSQL dựa trên GPT-4.

• Tuy nhiên, do hạn chế về tài nguyên tính toán và thời gian, các nhà nghiên cứu không thể tinh chỉnh phương pháp của họ trên các mô hình ngôn ngữ lớn như LLaMA2-70B, điều này có thể cải thiện hiệu suất hơn nữa.

📌 SENSE là mô hình AI nguồn mở mới cho chuyển đổi văn bản thành SQL, kết hợp dữ liệu tổng hợp mạnh và yếu để cải thiện tổng quát hóa. Đạt kết quả hàng đầu trên Spider và BIRD, vượt qua GPT-4 trên Spider với mô hình 13B, thu hẹp khoảng cách giữa mô hình nguồn mở và đóng.

https://www.marktechpost.com/2024/08/09/sense-bridging-the-gap-between-open-source-and-closed-source-llms-for-advanced-text-to-sql-parsing/

Không có file đính kèm.

Nguồn tham khảo

186

AI mở-nguồn mở AI nhỏ 2024-08-11 06:17:59

Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B ra mắt: bước tiếntrong công nghệ tính toán và AI nguồn mở

- Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B là hai dự án đột phá được Migel Tissera công bố trên Hugging Face vào ngày 9 tháng 8 năm 2024.
- Trinity-2-Codestral-22B là một hệ thống nâng cấp, đáp ứng nhu cầu ngày càng tăng về khả năng tính toán hiệu quả và mở rộng trong bối cảnh dữ liệu đang tăng trưởng nhanh chóng.
- Hệ thống này tích hợp các thuật toán tiên tiến với khả năng xử lý nâng cao, cho phép xử lý dữ liệu quy mô lớn với tốc độ và độ chính xác chưa từng có.
- Kiến trúc của Trinity-2-Codestral-22B cho phép tích hợp liền mạch với hạ tầng hiện có và linh hoạt trong việc mở rộng quy mô hoạt động.
- Dự án này dự kiến sẽ có tác động sâu sắc đến các ngành công nghiệp như tài chính, y tế và nghiên cứu khoa học, nơi mà phân tích và xử lý dữ liệu là rất quan trọng.
- Tess-3-Mistral-Large-2-123B được giới thiệu cùng lúc, nổi bật với khả năng xử lý và phân tích dữ liệu lớn theo thời gian thực.
- Hệ thống này hỗ trợ các mô hình học máy phức tạp và có khả năng xử lý nhanh chóng, rất hữu ích cho các ngành cần ra quyết định nhanh chóng dựa trên dữ liệu.
- Tess-3-Mistral-Large-2-123B cung cấp sức mạnh tính toán mà trước đây không thể đạt được, tối ưu cho việc chạy các mạng nơ-ron lớn và các thuật toán học máy cần thiết cho nhận diện hình ảnh, NLP và phân tích dự đoán.
- Sự kết hợp giữa hai hệ thống này cho phép các tổ chức khai thác AI theo những cách chưa từng có.
- Các đóng góp của Migel Tissera thể hiện sự hiểu biết sâu sắc về bối cảnh công nghệ và khả năng dự đoán nhu cầu tương lai.
- Những dự án này không chỉ giải quyết các thách thức của ngành mà còn đặt nền móng cho các hệ thống tính toán và phát triển AI trong tương lai.
- Khi được áp dụng rộng rãi, Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B sẽ thúc đẩy sự tiến bộ công nghệ đáng kể, nâng cao hiệu quả, độ chính xác và đổi mới.

📌 Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B đánh dấu bước tiến lớn trong công nghệ AI và tính toán, với khả năng xử lý dữ liệu lớn và nhanh chóng, tạo ra những cơ hội mới cho các ngành công nghiệp trong tương lai.

https://www.marktechpost.com/2024/08/09/trinity-2-codestral-22b-and-tess-3-mistral-large-2-123b-released-pioneering-open-source-advances-in-computational-power-and-ai-integration/

Không có file đính kèm.

Nguồn tham khảo

213

AI nhỏ AI mở-nguồn mở 2024-08-10 08:02:02

Idefics3-8B-Llama3: Cải thiện đáng kể hiệu suất trong các tác vụ hỏi đáp tài liệu và suy luận hình ảnh

• HuggingFace vừa phát hành Idefics3-8B-Llama3, một mô hình đa phương thức tiên tiến được thiết kế để cải thiện khả năng hỏi đáp tài liệu.

• Mô hình này kết hợp SigLip vision backbone với Llama 3.1 text backbone, hỗ trợ đầu vào văn bản và hình ảnh với tối đa 10.000 token ngữ cảnh.

• Idefics3-8B-Llama3 được cấp phép theo Apache 2.0, đại diện cho một bước tiến đáng kể so với các phiên bản trước đó.

• Mô hình có 8,5 tỷ tham số, cho phép xử lý các đầu vào đa dạng, bao gồm cả tài liệu phức tạp có cả văn bản và hình ảnh.

• Cải tiến bao gồm xử lý tốt hơn các token hình ảnh bằng cách mã hóa hình ảnh thành 169 token hình ảnh và tích hợp bộ dữ liệu tinh chỉnh mở rộng như Docmatix.

• Mục tiêu của phương pháp này là tinh chỉnh khả năng hiểu tài liệu và cải thiện hiệu suất tổng thể trong các tác vụ đa phương thức.

• Đánh giá hiệu suất cho thấy Idefics3-8B-Llama3 đạt độ chính xác 87,7% trong DocVQA và 55,9% trong MMStar, so với 49,5% trong DocVQA và 45,2% trong MMMU của Idefics2.

• Kết quả này cho thấy những cải tiến đáng kể trong việc xử lý các truy vấn dựa trên tài liệu và suy luận hình ảnh.

• Khả năng quản lý tối đa 10.000 token ngữ cảnh và tích hợp với các công nghệ tiên tiến góp phần vào những cải thiện hiệu suất này.

• Idefics3-8B-Llama3 đại diện cho một bước tiến lớn trong xử lý tài liệu đa phương thức, giải quyết các hạn chế trước đây và mang lại độ chính xác và hiệu quả cao hơn.

• Mô hình này cung cấp một công cụ có giá trị cho các ứng dụng yêu cầu tích hợp dữ liệu văn bản và hình ảnh phức tạp.

• Những cải tiến trong hỏi đáp tài liệu và suy luận hình ảnh nhấn mạnh tiềm năng của nó cho nhiều trường hợp sử dụng khác nhau.

📌 Idefics3-8B-Llama3, mô hình đa phương thức mới từ HuggingFace, đạt độ chính xác 87,7% trong DocVQA và 55,9% trong MMStar. Với 8,5 tỷ tham số và khả năng xử lý 10.000 token ngữ cảnh, mô hình hứa hẹn cải thiện đáng kể hiệu suất trong hỏi đáp tài liệu và suy luận hình ảnh.

https://www.marktechpost.com/2024/08/09/idefics3-8b-llama3-released-an-open-multimodal-model-that-accepts-arbitrary-sequences-of-image-and-text-inputs-and-produces-text-outputs/

Không có file đính kèm.

Nguồn tham khảo

152

AI mở-nguồn mở 2024-08-09 23:34:26

EXAONE 3.0: Mô hình ngôn ngữ nguồn mở 7,8B tham số từ LG AI Research

• LG AI Research vừa công bố phiên bản thứ 3 của EXAONE - một mô hình ngôn ngữ lớn nguồn mở với 7,8 tỷ tham số.

• EXAONE 3.0 có nhiều tính năng và cải tiến mới so với các phiên bản trước:
- Khả năng xử lý dữ liệu nhanh hơn và hiệu quả hơn
- Có thể thực hiện các tác vụ phức tạp với độ chính xác cao hơn
- Khả năng xử lý ngôn ngữ tự nhiên (NLP) nâng cao, giúp hiểu và diễn giải ngôn ngữ con người tốt hơn

• LG AI Research chú trọng phát triển AI có đạo đức trong EXAONE 3.0:
- Tích hợp các biện pháp bảo vệ để đảm bảo AI hoạt động trong giới hạn đạo đức
- Có cơ chế ngăn chặn thiên vị trong xử lý dữ liệu và ra quyết định
- Áp dụng các biện pháp bảo mật dữ liệu cá nhân nghiêm ngặt

• EXAONE 3.0 có thể ứng dụng trong nhiều ngành:
- Y tế: công cụ chẩn đoán chính xác hơn, phân tích dự đoán, y học cá nhân hóa
- Tài chính: đánh giá rủi ro, phát hiện gian lận, phân tích thị trường
- Truyền thông và giải trí: tự động hóa tạo nội dung, tạo mô phỏng thực tế, nâng cao trải nghiệm người dùng trong game và môi trường ảo

• LG AI Research cam kết tiếp tục hoàn thiện và mở rộng khả năng của EXAONE để AI trở thành một phần không thể thiếu trong cuộc sống hàng ngày.

• Công ty hướng tới tương lai AI đóng vai trò chính trong giải quyết các thách thức lớn của thế giới như y tế, giáo dục, biến đổi khí hậu và an ninh toàn cầu.

📌 EXAONE 3.0 là mô hình ngôn ngữ nguồn mở 7,8B tham số từ LG AI Research, với khả năng NLP nâng cao và ứng dụng đa ngành. Mô hình chú trọng phát triển AI có đạo đức, hướng tới giải quyết các thách thức toàn cầu trong tương lai.

https://www.marktechpost.com/2024/08/09/exaone-3-0-released-a-7-8b-open-sourced-state-of-the-art-language-model-from-lg-ai-research/

Không có file đính kèm.

Nguồn tham khảo

108

AI mở-nguồn mở 2024-08-09 07:59:12

Alibaba thống trị lĩnh vực AI toán học với Qwen2-Math

• Alibaba Cloud vừa công bố Qwen2-Math, một loạt mô hình ngôn ngữ lớn chuyên biệt về toán học bằng tiếng Anh.

• Mô hình mạnh nhất Qwen2-Math-72B-Instruct đạt 84% trong bài kiểm tra MATH Benchmark, vượt qua các đối thủ như OpenAI GPT-4, Anthropic Claude 3.5 Sonnet và Google Math-Gemini.

• Qwen2-Math-72B-Instruct cũng đứng đầu trong các bài kiểm tra toán học khác: 96,7% cho GSM8K (toán cấp 2) và 47,8% cho College Math (toán đại học).

• Ngay cả phiên bản nhỏ nhất Qwen2-Math-1.5B cũng đạt kết quả ấn tượng: 84,2% cho GSM8K và 44,2% cho toán đại học.

• Qwen2 là một mô hình ngôn ngữ lớn nguồn mở do Alibaba Cloud phát triển, cạnh tranh với GPT của OpenAI, Llama của Meta và Claude của Anthropic.

• Alibaba bắt đầu phát hành các mô hình LLM thuộc thương hiệu "Tongyi Qianwen" hay Qwen từ tháng 8/2023, với hơn 100 mô hình AI khác nhau.

• Hơn 90.000 doanh nghiệp đã áp dụng các mô hình Qwen trong hoạt động của họ trong năm đầu tiên.

• Các mô hình toán học AI như Qwen2-Math nhằm cung cấp công cụ đáng tin cậy hơn để giải phương trình và làm việc với số liệu.

• Điều kiện cấp phép cho phép sử dụng thương mại miễn phí đối với các ứng dụng có dưới 100 triệu người dùng hoạt động hàng tháng.

• Alibaba không so sánh với mô hình Orca-Math mới của Microsoft phát hành tháng 2/2024, có hiệu suất gần bằng Qwen2-Math-7B-Instruct.

• Các nhà nghiên cứu Alibaba hy vọng Qwen2-Math có thể đóng góp cho cộng đồng trong việc giải quyết các bài toán phức tạp.

• Mặc dù mã nguồn dựa trên nền tảng toán học, các mô hình LLM trước đây chưa đáng tin cậy bằng phần mềm cũ hơn trong việc giải các bài toán.

📌 Qwen2-Math của Alibaba đã vượt qua các đối thủ lớn trong lĩnh vực AI toán học, đạt điểm cao nhất trong nhiều bài kiểm tra chuẩn. Mô hình 72B đạt 84% trên MATH Benchmark, 96,7% trên GSM8K và 47,8% trên College Math, cho thấy tiềm năng lớn trong giải quyết các bài toán phức tạp.

https://venturebeat.com/ai/alibaba-claims-no-1-spot-in-ai-math-models-with-qwen2-math/

Không có file đính kèm.

Nguồn tham khảo

115

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2024-08-09 07:52:39

LG ra mắt Exaone 3.0 - mô hình AI nguồn mở đầu tiên của Hàn Quốc

• LG AI Research đã ra mắt Exaone 3.0, mô hình AI nguồn mở đầu tiên của Hàn Quốc với 7,8 tỷ tham số, đánh dấu sự gia nhập của quốc gia này vào lĩnh vực AI toàn cầu.

• Exaone 3.0 xuất sắc trong các tác vụ ngôn ngữ tiếng Hàn và tiếng Anh, nhằm thúc đẩy nghiên cứu AI và xây dựng hệ sinh thái AI mạnh mẽ tại Hàn Quốc.

• Động thái này thể hiện sự chuyển hướng chiến lược của LG, từ một công ty điện tử tiêu dùng truyền thống sang lĩnh vực đổi mới AI.

• Bằng cách mở nguồn Exaone 3.0, LG không chỉ thể hiện năng lực công nghệ mà còn tạo tiền đề cho nguồn doanh thu mới từ điện toán đám mây và dịch vụ AI.

• Exaone 3.0 gia nhập vào một lĩnh vực đông đúc các mô hình AI nguồn mở, bao gồm Qwen của Alibaba (Trung Quốc) và Falcon của UAE.

• Qwen đã thu hút hơn 90.000 khách hàng doanh nghiệp và vượt qua Meta's Llama 3.1 và Microsoft's Phi-3 trong các bảng xếp hạng hiệu suất.

• Falcon 2 của UAE, với 11 tỷ tham số, tuyên bố vượt trội hơn Meta's Llama 3 trong nhiều tiêu chuẩn đánh giá.

• Chiến lược nguồn mở của LG phản ánh cách tiếp cận của các công ty Trung Quốc như Alibaba, sử dụng AI nguồn mở để phát triển dịch vụ đám mây và đẩy nhanh thương mại hóa.

• LG tuyên bố Exaone 3.0 có hiệu quả cải thiện đáng kể: giảm 56% thời gian suy luận, giảm 35% sử dụng bộ nhớ và giảm 72% chi phí vận hành so với phiên bản trước.

• Mô hình đã được đào tạo trên 60 triệu trường hợp dữ liệu chuyên nghiệp liên quan đến bằng sáng chế, mã, toán học và hóa học, với kế hoạch mở rộng lên 100 triệu trường hợp vào cuối năm.

• Sự thành công của Exaone 3.0 có thể có tác động sâu rộng: đối với LG, nó có thể mở ra nguồn doanh thu mới từ AI và dịch vụ đám mây; đối với Hàn Quốc, nó đại diện cho một bước tiến mạnh mẽ trên sân khấu AI toàn cầu.

• Sự phổ biến của các mô hình nguồn mở như Exaone 3.0 có thể dân chủ hóa quyền truy cập vào công nghệ AI tiên tiến, thúc đẩy đổi mới trong nhiều ngành công nghiệp và khu vực địa lý.

📌 LG ra mắt Exaone 3.0 - mô hình AI nguồn mở 7,8 tỷ tham số đầu tiên của Hàn Quốc, cạnh tranh với các đối thủ toàn cầu. Mô hình có hiệu suất cao trong tiếng Hàn và Anh, giảm 56% thời gian suy luận, 35% sử dụng bộ nhớ so với phiên bản trước, đánh dấu bước tiến quan trọng của Hàn Quốc trong lĩnh vực AI toàn cầu.

https://venturebeat.com/ai/lg-unleashes-south-koreas-first-open-source-ai-challenging-global-tech-giants/

Không có file đính kèm.

Nguồn tham khảo

114

AI models AI mở-nguồn mở 2024-08-08 00:41:44

Mistral AI ra mắt 3 LLM mã nguồn mở: Mistral NeMo 12B, Codestral Mamba 7B và Mathstral 7B

• Mistral AI vừa phát hành 3 mô hình ngôn ngữ mã nguồn mở mới: Mistral NeMo, Codestral Mamba và Mathstral.

• Mistral NeMo là mô hình đa năng 12 tỷ tham số, có cửa sổ ngữ cảnh 128.000 token và hỗ trợ nhiều ngôn ngữ. Nó có hiệu suất mạnh mẽ trên 11 ngôn ngữ bao gồm tiếng Trung, Nhật, Ả Rập và Hindi.

• NeMo sử dụng bộ tokenizer mới tên Tekken, giúp nén hiệu quả hơn mã nguồn và ngôn ngữ tự nhiên.

• Trên các bài kiểm tra chuẩn như MMLU và Winogrande, NeMo vượt trội so với các mô hình cùng kích thước như Gemma 2 9B và Llama 3 8B.

• Codestral Mamba là mô hình 7 tỷ tham số dựa trên kiến trúc Mamba, một giải pháp thay thế cho Transformer phổ biến. Mamba cho phép suy luận nhanh hơn và độ dài ngữ cảnh lý thuyết vô hạn.

• Mistral tuyên bố Codestral Mamba có khả năng phản hồi nhanh bất kể độ dài đầu vào và hiệu suất ngang bằng với các mô hình Transformer lớn hơn như CodeLlama 34B.

• Mathstral là mô hình 7 tỷ tham số được tinh chỉnh cho toán học và STEM, phát triển cùng tổ chức phi lợi nhuận Project Numina.

• Mathstral đạt kết quả tốt nhất trong phân khúc kích thước của nó trên nhiều bài kiểm tra, bao gồm 63,47% trên MMLU và 56,6% trên MATH.

• Cả 3 mô hình đều được cấp phép Apache 2.0, cho phép sử dụng tự do.

• Các mô hình có sẵn để tải xuống trên Huggingface hoặc thông qua SDK mistral-inference của Mistral.

• NeMo và Mamba cũng có thể truy cập qua API la Plateforme của Mistral AI.

• NeMo được hỗ trợ bởi dịch vụ suy luận NIM của NVIDIA, trong khi Mamba có thể triển khai bằng TensorRT-LLM.

• Cộng đồng trên Hacker News thảo luận về tiềm năng của các mô hình này cho các ứng dụng như trợ lý lập trình ngoại tuyến, đồng thời cũng nêu ra một số lo ngại về yêu cầu phần cứng và rủi ro pháp lý khi sử dụng mô hình cục bộ cho tạo mã.

📌 Mistral AI đã tạo bước đột phá với 3 mô hình ngôn ngữ mã nguồn mở mạnh mẽ: NeMo 12B đa năng, Mamba 7B cho tạo mã nhanh, và Mathstral 7B cho toán học. Các mô hình này vượt trội so với đối thủ cùng cỡ, hỗ trợ đa ngôn ngữ và được cấp phép tự do, mở ra nhiều khả năng ứng dụng AI tạo sinh.

https://www.infoq.com/news/2024/08/mistral-ai-models/

Không có file đính kèm.

Nguồn tham khảo

134

AI mở-nguồn mở AI coding assistant 2024-08-07 00:12:46

LlamaCoder - Trợ lý lập trình AI nguồn mở tạo ứng dụng full-stack từ một câu lệnh

• LlamaCoder là công cụ AI nguồn mở được thiết kế để tạo ra các ứng dụng full-stack chỉ từ một câu lệnh đơn giản.

• Sử dụng mô hình Llama 3.1 45 tỷ tham số của Meta AI, đảm bảo độ chính xác và hiệu suất cao trong việc tạo mã.

• Tích hợp nhiều công nghệ hiện đại như Sandpack, Next.js, Tailwind, Helicone và Posible để tối ưu hóa quá trình phát triển.

• Có thể tạo ra nhiều loại ứng dụng khác nhau như Máy tính, Trò chơi câu đố, Lịch, Phễu thương mại điện tử và Trò chơi rắn săn mồi.

• Là công cụ nguồn mở, miễn phí và có thể tùy chỉnh, giúp dân chủ hóa quá trình phát triển ứng dụng.

• Yêu cầu cài đặt Python, npm, Git, VS Code và Together AI API Key để sử dụng.

• Các bước cài đặt bao gồm: Clone repository GitHub, cấu hình file môi trường, cài đặt các gói cần thiết và chạy cục bộ.

• Hỗ trợ chỉnh sửa theo thời gian thực thông qua phương pháp human-in-the-loop, cho phép điều chỉnh linh hoạt.

• Nổi bật trong khả năng trực quan hóa dữ liệu với các biểu đồ và đồ thị đẹp mắt.

• Được phát triển bởi Hassan El Mghari với sự hỗ trợ tích cực từ cộng đồng để cải tiến liên tục.

• LlamaCoder đại diện cho bước tiến quan trọng trong phát triển ứng dụng có sự hỗ trợ của AI.

• Tính năng nguồn mở và khả năng tích hợp công nghệ tiên tiến giúp các nhà phát triển xây dựng và tùy chỉnh ứng dụng full-stack một cách hiệu quả.

• Phù hợp cho cả nhà phát triển có kinh nghiệm lẫn người mới bắt đầu, giúp đơn giản hóa quy trình phát triển.

• Cho phép tập trung vào đổi mới, sáng tạo và cung cấp ứng dụng chất lượng cao cho người dùng.

• Cộng đồng nguồn mở tích cực thúc đẩy sự phát triển và cải tiến liên tục của LlamaCoder.

📌 LlamaCoder là trợ lý AI nguồn mở tạo ứng dụng full-stack từ một câu lệnh, sử dụng mô hình Llama 3.1 45 tỷ tham số. Tích hợp nhiều công nghệ hiện đại, hỗ trợ chỉnh sửa thời gian thực và trực quan hóa dữ liệu, giúp đơn giản hóa quá trình phát triển ứng dụng cho mọi đối tượng.

https://www.geeky-gadgets.com/?p=434674

Không có file đính kèm.

Nguồn tham khảo

182

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-08-06 23:44:54

Alibaba phát triển công cụ tạo video mới dựa trên mô hình nguồn mở của Sora

• Alibaba đang phát triển công cụ tạo video có tên Tora dựa trên mô hình Sora của OpenAI, đánh dấu nỗ lực mới nhất của gã khổng lồ công nghệ Trung Quốc trong lĩnh vực AI video.

• Tora là một framework tạo video sử dụng OpenSora làm mô hình nền tảng, được mô tả trong một bài báo do 5 nhà nghiên cứu của Alibaba công bố tuần trước.

• Framework này đạt được bước đột phá dựa trên kiến trúc Diffusion Transformer (DiT), kiến trúc mới làm nền tảng cho Sora - mô hình text-to-video được OpenAI ra mắt vào tháng 2/2024.

• Các nhà nghiên cứu tuyên bố đã phát triển "framework DiT định hướng quỹ đạo đầu tiên cho tạo video", đảm bảo chuyển động được tạo ra tuân theo chính xác các quỹ đạo được chỉ định đồng thời mô phỏng động lực học của thế giới vật lý.

• Họ đã điều chỉnh quy trình của OpenSora để chuyển đổi video thô thành các cặp video-văn bản chất lượng cao và tận dụng bộ ước tính optical flow để trích xuất quỹ đạo.

• Tora có khả năng tạo video được hướng dẫn bởi quỹ đạo, hình ảnh, văn bản hoặc kết hợp cả ba yếu tố này.

• Động thái của Alibaba đánh dấu nỗ lực mới nhất của công ty trong việc ra mắt các công cụ tạo video giống Sora, khi các công ty Trung Quốc đang đua nhau giành chỗ đứng trong lĩnh vực AI video.

• Tháng 7/2024, startup Trung Quốc Shengshu AI đã ra mắt công cụ text-to-video Vidu, cho phép người dùng đã đăng ký tạo các đoạn video dài 4 hoặc 8 giây.

• Trước đó vài ngày, Zhipu AI, một trong "Tứ hổ AI" mới của Trung Quốc, đã ra mắt mô hình tạo video Ying, chấp nhận cả lời nhắc văn bản và hình ảnh để tạo các đoạn video 6 giây trong khoảng 30 giây.

• Tháng 2/2024, Alibaba đã giới thiệu mô hình tạo video AI có tên Emote Portrait Alive (EMO), có thể chuyển đổi một hình ảnh tham chiếu tĩnh và mẫu giọng nói thành video avatar hoạt hình với biểu cảm khuôn mặt và tư thế.

• Bài báo nghiên cứu không đề cập liệu Tora có được liên kết với EMO hoặc Tongyi Qianwen - họ mô hình ngôn ngữ lớn tự phát triển của Alibaba hay không.

📌 Alibaba phát triển công cụ tạo video AI Tora dựa trên OpenSora, sử dụng kiến trúc DiT và có khả năng tạo video theo quỹ đạo, hình ảnh và văn bản. Đây là nỗ lực mới nhất của công ty trong cuộc đua AI video ở Trung Quốc, cạnh tranh với các đối thủ như Shengshu AI và Zhipu AI.

https://www.scmp.com/tech/big-tech/article/3273443/alibaba-develops-new-video-generation-tool-based-soras-open-source-model

Không có file đính kèm.

Nguồn tham khảo

138

AI mở-nguồn mở AI tools 2024-08-05 07:20:57

OpenSearch GPT - Công cụ tìm kiếm AI nguồn mở cá nhân hóa, học hỏi từ tương tác người dùng

• OpenSearch GPT là công cụ tìm kiếm AI nguồn mở, tập trung vào việc cung cấp kết quả tìm kiếm được cá nhân hóa bằng cách học hỏi từ tương tác của người dùng.

• Khác với Perplexity, OpenSearch GPT chú trọng đưa ra phản hồi phù hợp dựa trên sở thích và truy vấn trước đó của người dùng.

• Tính năng cá nhân hóa được thực hiện bằng cách học hỏi từ tương tác người dùng, giúp kết quả tìm kiếm ngày càng phù hợp hơn theo thời gian.

• Là nền tảng nguồn mở, OpenSearch GPT mang lại tính minh bạch, linh hoạt và khả năng đóng góp vào quá trình phát triển.

• Hệ thống trí nhớ Mem Zero ghi nhớ các tương tác trước đó để tinh chỉnh kết quả tìm kiếm trong tương lai.

• Được xây dựng trên nền tảng công nghệ mạnh mẽ bao gồm Versal AI ADK, Next.js, Tailwind CSS, Shad CN UI và Cloudflare Pages.

• Hoạt động như trợ lý viết lách và công cụ quản lý dữ liệu, giúp đa dạng hóa ứng dụng cho cá nhân và doanh nghiệp.

• Yêu cầu đăng nhập bằng tài khoản Google để dễ dàng truy cập và quản lý lịch sử tìm kiếm, tùy chọn một cách an toàn.

• Phù hợp cho nhiều ứng dụng khác nhau, nâng cao năng suất và tối ưu hóa quy trình làm việc cho nhiều đối tượng người dùng.

• OpenSearch GPT tập trung vào khả năng cá nhân hóa vượt trội. Mỗi truy vấn tìm kiếm giúp hệ thống hiểu rõ hơn về sở thích của bạn, cho phép liên tục tinh chỉnh và cải thiện độ phù hợp của kết quả tìm kiếm.

• Là nền tảng nguồn mở, OpenSearch GPT mang lại tính minh bạch và linh hoạt vượt trội. Bạn có quyền truy cập đầy đủ vào mã nguồn, cho phép sửa đổi và tùy chỉnh nền tảng theo yêu cầu cụ thể của mình.

• Hệ thống tích hợp trí nhớ tiên tiến Mem Zero cho phép công cụ tìm kiếm ghi nhớ và học hỏi từ các tương tác trước đó, đảm bảo kết quả tìm kiếm trong tương lai chính xác và phù hợp hơn.

• OpenSearch GPT không chỉ là công cụ tìm kiếm mà còn là công cụ đa năng cung cấp nhiều chức năng để nâng cao năng suất của bạn như trợ lý viết lách, quản lý dữ liệu và hỗ trợ nghiên cứu.

• Để đảm bảo trải nghiệm người dùng liền mạch và an toàn, OpenSearch GPT tích hợp với tài khoản Google của bạn để xác thực. Điều này đơn giản hóa quy trình đăng nhập và cho phép nền tảng quản lý lịch sử tìm kiếm và tùy chọn của bạn một cách an toàn.

• Ứng dụng tiềm năng của OpenSearch GPT rất rộng rãi và đa dạng, từ cá nhân hóa cách tìm kiếm và tiêu thụ thông tin đến tự động hóa các tác vụ, cải thiện hiệu quả hoạt động và rút ra những hiểu biết có giá trị từ dữ liệu trong bối cảnh kinh doanh.

📌 OpenSearch GPT là công cụ tìm kiếm AI nguồn mở cá nhân hóa, tích hợp trí nhớ Mem Zero và đa chức năng. Nó học hỏi từ tương tác người dùng, cung cấp kết quả phù hợp, hỗ trợ viết lách và quản lý dữ liệu. Được xây dựng trên nền tảng công nghệ tiên tiến, OpenSearch GPT mang lại trải nghiệm tìm kiếm thông minh và hiệu quả.

https://www.geeky-gadgets.com/ai-search-engine-2024/

Không có file đính kèm.

Nguồn tham khảo

130

AI mở-nguồn mở AI nhỏ 2024-08-05 05:45:49

SEA-LION v2: Mô hình ngôn ngữ mã nguồn mở cho Đông Nam Á, phát triển bởi AI Singapore

• SEA-LION là một nhóm các mô hình ngôn ngữ nguồn mở được phát triển bởi AI Singapore, nhằm hiểu rõ hơn về bối cảnh, ngôn ngữ và văn hóa đa dạng của Đông Nam Á.

• Phiên bản đầu tiên của SEA-LION được phát hành vào tháng 12/2023, được đào tạo từ đầu bằng SEA-LION-PILE (khoảng 1 nghìn tỷ token).

• Phiên bản mới nhất (v2) dựa trên việc tiếp tục đào tạo trước mô hình Llama 3 nguồn mở.

• SEA-LION hoàn toàn minh bạch và nguồn mở, bao gồm dữ liệu đào tạo trước, mã đào tạo mô hình, trọng số mô hình, dữ liệu tinh chỉnh và các điểm chuẩn đánh giá.

• Các tính năng chính của SEA-LION v2:
- Tiếp tục đào tạo trước và tinh chỉnh từ Llama 3
- Được hướng dẫn bằng tiếng Anh, Bahasa Indonesia, Thái, Việt và Tamil
- Đào tạo với tối đa 50 tỷ token từ các ngôn ngữ Đông Nam Á
- Vượt trội hơn Llama 3 cơ sở và các mô hình khác trong cả khả năng chung và khả năng đặc thù cho Đông Nam Á

• SEA-LION v2 có sẵn để tải xuống trên HuggingFace với các phiên bản mô hình cơ sở, mô hình được hướng dẫn và mô hình lượng tử hóa.

• Mô hình đạt hiệu suất tốt hơn hoặc cạnh tranh trên các tác vụ bằng ngôn ngữ khu vực trong khi vẫn giữ được hiệu suất chung của Llama 3.

• Đánh giá toàn diện bao gồm các tác vụ NLP truyền thống và các bài kiểm tra chẩn đoán ngôn ngữ và văn hóa được thiết kế riêng cho Đông Nam Á.

• SEA-LION có thể được triển khai bằng Text Generation Inference (TGI), vLLM hoặc Ollama.

• Dự án chào đón sự đóng góp từ cộng đồng trong việc báo cáo lỗi, cải thiện tài liệu, thêm các tác vụ đánh giá mô hình và đào tạo các phiên bản mô hình bằng nhiều ngôn ngữ Đông Nam Á hơn.

📌 SEA-LION là mô hình ngôn ngữ nguồn mở tiên phong cho Đông Nam Á, vượt trội Llama 3 trong hiểu biết ngôn ngữ và văn hóa khu vực. Với 50 tỷ token đào tạo, nó hỗ trợ 5 ngôn ngữ chính và mở ra cơ hội mới cho AI đa ngôn ngữ trong khu vực.

https://github.com/aisingapore/sealion

Không có file đính kèm.

Nguồn tham khảo

162

AI data AI mở-nguồn mở 2024-08-05 05:40:45

Magpie-Ultra: Bộ dữ liệu mới 50.000 cặp chỉ dẫn-phản hồi từ Llama 3.1 405B

• Argilla vừa phát hành bộ dữ liệu Magpie-Ultra gồm 50.000 cặp chỉ dẫn-phản hồi cho huấn luyện có giám sát (SFT) các mô hình AI.

• Bộ dữ liệu được tạo ra tổng hợp bằng mô hình Llama 3.1 405B-Instruct và các mô hình Llama khác như Llama-Guard-3-8B và Meta-Llama-3.1-8B-Instruct.

• Nội dung đa dạng bao gồm lập trình, toán học, phân tích dữ liệu, viết sáng tạo, tư vấn và brainstorming, với các chỉ dẫn và phản hồi mang tính thách thức.

• Quy trình tạo dữ liệu sử dụng công cụ distilabel và tuân theo phương pháp Magpie được mô tả trong bài báo "Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing".

• So với phiên bản Magpie gốc 1 triệu cặp, phiên bản này tập trung hơn với 50.000 cặp chất lượng cao sử dụng các mô hình Llama 3.1 mới nhất.

• Quy trình tạo dữ liệu sử dụng nhiều mô hình khác nhau cho các bước tạo chỉ dẫn, tạo phản hồi, đánh giá chất lượng và phân loại an toàn.

• Toàn bộ quá trình tạo dữ liệu mất khoảng 111 giờ trên một máy 8xH100, trong đó 60 giờ để tạo cặp chỉ dẫn-phản hồi và 51 giờ cho các bước bổ sung.

• Cấu trúc dữ liệu bao gồm nhiều cột thông tin phong phú như chỉ dẫn, phản hồi từ mô hình instruct và base, ý định, kiến thức yêu cầu, độ khó, đánh giá chất lượng và phân loại.

• Bộ dữ liệu tích hợp kiểm tra an toàn sử dụng Llama-Guard-3-8B và cung cấp thông tin embedding cho mỗi chỉ dẫn.

• Magpie-Ultra có thể được sử dụng cho Huấn luyện có giám sát (SFT) hoặc Tối ưu hóa ưu tiên trực tiếp (DPO) tùy thuộc vào chênh lệch điểm giữa phản hồi của mô hình instruct và base.

• Phiên bản hiện tại chưa được lọc, một phiên bản đã lọc dự kiến sẽ được phát hành trong tương lai.

• Mặc dù còn một số hạn chế như chưa cân bằng dữ liệu, Magpie-Ultra vẫn là nguồn tài nguyên quý giá để nâng cao khả năng AI trong nhiều lĩnh vực.

📌 Magpie-Ultra cung cấp 50.000 cặp chỉ dẫn-phản hồi chất lượng cao từ Llama 3.1 405B, bao gồm nhiều chủ đề đa dạng. Bộ dữ liệu này mở ra cơ hội huấn luyện AI tiên tiến thông qua SFT hoặc DPO, đóng góp quan trọng cho sự phát triển của các mô hình ngôn ngữ lớn.

https://www.marktechpost.com/2024/08/04/magpie-ultra-dataset-released-harnessing-llama-3-1-405b-for-diverse-ai-instruction-response-pairs/

Không có file đính kèm.

Nguồn tham khảo

140

AI an toàn-an ninh-techwar AI mở-nguồn mở 2024-08-04 08:00:36

Nghiên cứu mới giúp bảo vệ các mô hình AI nguồn mở khỏi bị lạm dụng

• Các nhà nghiên cứu từ Đại học Illinois Urbana-Champaign, UC San Diego, Lapis Labs và Center for AI Safety đã phát triển một kỹ thuật huấn luyện mới giúp ngăn chặn việc lạm dụng các mô hình AI nguồn mở.

• Kỹ thuật này được phát triển sau khi mô hình ngôn ngữ lớn Llama 3 của Meta bị bẻ khóa các hạn chế an toàn chỉ sau vài ngày phát hành.

• Phương pháp mới làm phức tạp hóa quá trình sửa đổi mô hình nguồn mở cho các mục đích xấu bằng cách thay đổi các tham số của mô hình.

• Các nhà nghiên cứu đã thử nghiệm kỹ thuật này trên một phiên bản thu nhỏ của Llama 3 và có thể điều chỉnh các tham số để mô hình không thể được huấn luyện trả lời các câu hỏi không mong muốn.

• Mặc dù không hoàn hảo, phương pháp này có thể nâng cao rào cản đối với việc "gỡ bỏ kiểm duyệt" các mô hình AI.

• Mantas Mazeika, một nhà nghiên cứu tham gia dự án, nhấn mạnh tầm quan trọng của việc bảo vệ các mô hình nguồn mở khi AI ngày càng mạnh mẽ hơn.

• Các mô hình nguồn mở như Llama 3 của Meta và Mistral Large 2 đang cạnh tranh với các mô hình đóng tiên tiến từ các công ty như OpenAI và Google.

• Chính phủ Mỹ đang có cách tiếp cận thận trọng nhưng tích cực đối với AI nguồn mở, khuyến nghị phát triển khả năng giám sát rủi ro tiềm ẩn.

• Một số chuyên gia như Stella Biderman từ EleutherAI cho rằng kỹ thuật mới này có thể khó thực thi trong thực tế và đi ngược lại triết lý của phần mềm tự do và sự cởi mở trong AI.

• Biderman cho rằng can thiệp đúng đắn nên tập trung vào dữ liệu huấn luyện thay vì mô hình đã được huấn luyện.

• Kỹ thuật mới này có thể khởi đầu cho nghiên cứu về các biện pháp bảo vệ chống giả mạo, giúp cộng đồng nghiên cứu phát triển các biện pháp bảo vệ mạnh mẽ hơn.

📌 Kỹ thuật mới giúp bảo vệ mô hình AI nguồn mở như Llama 3 khỏi bị lạm dụng, nâng cao rào cản đối với việc gỡ bỏ kiểm duyệt. Mặc dù còn tranh cãi, phương pháp này có thể là bước đầu quan trọng trong việc tăng cường an toàn cho AI nguồn mở đang phát triển nhanh chóng.

https://www.wired.com/story/center-for-ai-safety-open-source-llm-safeguards/

Không có file đính kèm.

Nguồn tham khảo

141

AI mở-nguồn mở 2024-08-03 00:09:37

Nỗ lực hạn chế AI nguồn mở của các nhà quản lý bị chỉ trích là sai lầm

• Các nhà lập pháp ở châu Âu và California đang lo ngại về sự "nguy hiểm" của AI nguồn mở, nhưng tác giả cho rằng không có gì nguy hiểm về tính minh bạch.

• Bộ Thương mại Mỹ đã công bố báo cáo về các mô hình AI trọng số mở, kết luận rằng chưa có đủ bằng chứng về rủi ro biên của chúng để áp đặt hạn chế.

• Ủy ban Thương mại Liên bang Mỹ cũng tuyên bố các mô hình trọng số mở có tiềm năng thúc đẩy đổi mới, giảm chi phí và mang lại lợi ích cho công chúng.

• Meta vừa phát hành phiên bản mới nhất và mạnh mẽ nhất của mô hình AI Llama 3.1, cho phép phát triển ứng dụng bổ sung trên nền tảng này.

• Tuy nhiên, các quy định hạn chế của EU có thể khiến các mô hình AI trọng số mở trở nên bất hợp pháp. Meta đã thông báo sẽ không phát hành mô hình AI đa phương thức tiếp theo ở EU do môi trường pháp lý không chắc chắn.

• Ở California, các nhà lập pháp Đảng Dân chủ đã đề xuất dự luật SB 1047 để thành lập "Bộ phận Mô hình Tiên tiến" nhằm thực thi các quy định AI mới. Các chuyên gia cảnh báo dự luật này sẽ hạn chế nghiêm trọng các mô hình AI trọng số mở.

• Việc hạn chế AI nguồn mở có thể làm suy yếu khả năng cạnh tranh của Mỹ với Trung Quốc trong lĩnh vực AI. Trung Quốc đang đẩy mạnh mục tiêu vượt qua Mỹ và trở thành quốc gia dẫn đầu thế giới về AI vào năm 2030.

• Các lãnh đạo công nghệ như Mark Zuckerberg và Sam Altman ủng hộ AI nguồn mở như một chiến lược để duy trì vị thế dẫn đầu của Mỹ và lan tỏa các giá trị dân chủ.

• AI nguồn mở đóng vai trò quan trọng trong việc tăng cường nền kinh tế, cung cấp ứng dụng tốt hơn, tạo việc làm và củng cố an ninh quốc gia của Mỹ.

📌 Hạn chế AI nguồn mở có thể cản trở đổi mới và làm suy yếu vị thế dẫn đầu của Mỹ trong lĩnh vực AI. Các chuyên gia và lãnh đạo công nghệ ủng hộ phát triển hệ sinh thái AI mở để thúc đẩy cạnh tranh, minh bạch và lan tỏa các giá trị dân chủ, đồng thời cảnh báo về tác động tiêu cực của các quy định hạn chế quá mức.

https://cointelegraph.com/news/regulators-misguided-efforts-limit-open-source-ai

Không có file đính kèm.

Nguồn tham khảo

120

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-08-02 07:41:03

aiOla tung mô hình nhận dạng giọng nói siêu nhanh, đánh bại OpenAI Whisper

• Công ty khởi nghiệp AI aiOla của Israel vừa ra mắt mô hình nhận dạng giọng nói nguồn mở mới có tên Whisper-Medusa, nhanh hơn 50% so với Whisper của OpenAI.

• Whisper-Medusa được xây dựng dựa trên Whisper nhưng sử dụng kiến trúc "multi-head attention" mới, cho phép dự đoán nhiều token hơn cùng một lúc.

• Mã nguồn và trọng số của mô hình đã được phát hành trên Hugging Face dưới giấy phép MIT, cho phép sử dụng cho nghiên cứu và thương mại.

• Whisper-Medusa có thể dự đoán 10 token mỗi lần thay vì 1 token như Whisper, giúp tăng 50% tốc độ dự đoán và thời gian chạy.

• Mô hình mới vẫn duy trì độ chính xác tương đương với Whisper gốc.

• aiOla sử dụng phương pháp học yếu (weak supervision) để huấn luyện Whisper-Medusa, đóng băng các thành phần chính của Whisper và sử dụng bản ghi âm do mô hình tạo ra làm nhãn để huấn luyện các module dự đoán token bổ sung.

• Công ty đang phát triển phiên bản 20-head có thể dự đoán 20 token cùng lúc, hứa hẹn tốc độ nhận dạng và phiên âm nhanh hơn nữa mà không mất độ chính xác.

• Cải thiện tốc độ nhận dạng và phiên âm sẽ cho phép xử lý nhanh hơn trong các ứng dụng giọng nói và mở đường cho phản hồi thời gian thực.

• Công nghệ này có thể thúc đẩy năng suất, giảm chi phí vận hành và cung cấp nội dung nhanh chóng hơn cho các cá nhân và doanh nghiệp.

• Whisper hiện là tiêu chuẩn vàng trong nhận dạng giọng nói, với hơn 5 triệu lượt tải xuống mỗi tháng và được sử dụng trong hàng chục nghìn ứng dụng.

• Nhận dạng giọng nói nâng cao vẫn rất quan trọng trong thời đại các mô hình nền tảng, thúc đẩy các chức năng chính trong các lĩnh vực như chăm sóc sức khỏe và fintech.

• Công nghệ này cũng đang hỗ trợ các hệ thống AI đa phương thức có khả năng cao, như OpenAI đã kết hợp Whisper với LLM để xử lý truy vấn bằng giọng nói và cung cấp câu trả lời.

📌 aiOla ra mắt mô hình nhận dạng giọng nói Whisper-Medusa nhanh hơn 50% so với OpenAI Whisper, dự đoán 10 token mỗi lần thay vì 1. Mô hình nguồn mở này duy trì độ chính xác cao và hứa hẹn thúc đẩy ứng dụng giọng nói thời gian thực trong nhiều lĩnh vực.

https://venturebeat.com/ai/aiola-drops-ultra-fast-multi-head-speech-recognition-model-beats-openai-whisper/

Không có file đính kèm.

Nguồn tham khảo

211

AI nhỏ AI mở-nguồn mở 2024-08-02 00:23:28

Google ra mắt mô hình AI nhỏ gọn Gemma 2 2B, thách thức các đối thủ lớn với hiệu suất ấn tượng

• Google vừa công bố Gemma 2 2B, một mô hình AI nhỏ gọn nhưng mạnh mẽ với chỉ 2,6 tỷ tham số.

• Mặc dù kích thước nhỏ, Gemma 2 2B đạt hiệu suất ngang bằng hoặc vượt trội so với các mô hình lớn hơn như GPT-3.5 của OpenAI và Mixtral 8x7B của Mistral AI.

• Trong bài kiểm tra độc lập của tổ chức nghiên cứu AI LMSYS, Gemma 2 2B đạt điểm 1.130, cao hơn một chút so với GPT-3.5-Turbo-0613 (1.117) và Mixtral-8x7B (1.114).

• Mô hình này đạt 56,1 điểm trong bài kiểm tra MMLU (Massive Multitask Language Understanding) và 36,6 điểm trong MBPP (Mostly Basic Python Programming).

• Thành công của Gemma 2 2B thách thức quan điểm cho rằng mô hình lớn hơn luôn hoạt động tốt hơn, cho thấy kỹ thuật huấn luyện tiên tiến và bộ dữ liệu chất lượng cao có thể bù đắp cho số lượng tham số.

• Google đã huấn luyện Gemma 2 2B trên bộ dữ liệu khổng lồ gồm 2 nghìn tỷ token sử dụng phần cứng TPU v5e tiên tiến.

• Mô hình này hỗ trợ đa ngôn ngữ, mở rộng tiềm năng ứng dụng toàn cầu.

• Gemma 2 2B được phát hành dưới dạng nguồn mở, cho phép các nhà nghiên cứu và nhà phát triển truy cập thông qua Hugging Face và Gradio.

• Việc phát triển Gemma 2 2B nhấn mạnh tầm quan trọng ngày càng tăng của kỹ thuật nén và chưng cất mô hình AI.

• Bằng cách chưng cất kiến thức từ các mô hình lớn hơn thành các mô hình nhỏ hơn, các nhà nghiên cứu có thể tạo ra các công cụ AI dễ tiếp cận hơn mà không ảnh hưởng đến hiệu suất.

• Phương pháp này không chỉ giảm yêu cầu tính toán mà còn giải quyết các lo ngại về tác động môi trường của việc huấn luyện và vận hành các mô hình AI lớn.

• Xu hướng hướng tới các mô hình AI hiệu quả hơn đang gia tăng trong ngành công nghiệp, khi các công ty tập trung vào việc tạo ra các hệ thống nhỏ hơn, hiệu quả hơn có thể chạy trên phần cứng tiêu dùng.

• Sự ra mắt của Gemma 2 2B đánh dấu một bước tiến quan trọng trong việc dân chủ hóa công nghệ AI, mở ra khả năng tiếp cận các khả năng AI tiên tiến mà không cần siêu máy tính đắt tiền.

📌 Gemma 2 2B của Google với 2,6 tỷ tham số vượt trội so với các mô hình lớn hơn 10 lần như GPT-3.5. Mô hình nguồn mở này đạt 1.130 điểm trong bài kiểm tra LMSYS, 56,1 điểm MMLU và 36,6 điểm MBPP, mở ra kỷ nguyên mới cho AI nhỏ gọn, hiệu quả và dễ tiếp cận.

https://venturebeat.com/ai/googles-tiny-ai-model-gemma-2-2b-challenges-tech-giants-in-surprising-upset/

Không có file đính kèm.

Nguồn tham khảo

151

AI mở-nguồn mở 2024-08-02 00:08:34

Github Models: cánh cửa mới giúp lập trình viên khám phá sức mạnh của AI tạo sinh

• GitHub ra mắt dịch vụ mới có tên GitHub Models nhằm tạo điều kiện thuận lợi cho các lập trình viên doanh nghiệp thử nghiệm và xây dựng ứng dụng với AI tạo sinh.

• Dịch vụ này cung cấp quyền truy cập trực tiếp vào nhiều mô hình AI khác nhau từ các công ty hàng đầu như Meta, OpenAI, Mistral, AI21, Microsoft và Cohere.

• Mục tiêu chính là cho phép lập trình viên thử nghiệm và tích hợp các mô hình AI tạo sinh vào ứng dụng của họ, vượt ra ngoài phạm vi hoàn thành mã.

• Mario Rodriguez, Phó chủ tịch cấp cao phụ trách sản phẩm tại GitHub, nhấn mạnh rằng mọi ứng dụng trong tương lai đều sẽ có trí thông minh gắn liền với nó.

• GitHub Models giúp giảm thiểu rào cản mà lập trình viên gặp phải khi thử nghiệm và tích hợp mô hình AI vào ứng dụng của họ.

• Trước đây, lập trình viên phải chuyển đổi giữa nhiều trang web và tạo nhiều tài khoản chỉ để thử nghiệm các mô hình khác nhau. GitHub Models giải quyết vấn đề này bằng cách cung cấp một danh mục tập trung các mô hình AI mà lập trình viên có thể truy cập và thử nghiệm trực tiếp trong nền tảng GitHub.

• GitHub Models cũng cung cấp lộ trình để người dùng dễ dàng chuyển từ thử nghiệm sang triển khai sản xuất các ứng dụng hỗ trợ AI. Lộ trình này dẫn đến Microsoft Azure.

• Quy trình hoạt động bắt đầu từ việc người dùng thử nghiệm các mô hình AI trong môi trường thử nghiệm GitHub Models, sau đó chuyển sang môi trường phát triển GitHub Codespace hoặc VS Code và truy cập SDK Azure để lấy token và khóa API cần thiết để kết nối với nền tảng Azure.

• Rodriguez xác định ba thách thức chính mà lập trình viên phải đối mặt khi làm việc với mô hình AI: độ trễ, chất lượng phản hồi và chi phí. GitHub Models giúp lập trình viên vượt qua những thách thức này bằng cách cung cấp môi trường để kiểm tra và so sánh.

• Mặc dù các điểm chuẩn ngành cho các mô hình AI tạo sinh khác nhau rất hữu ích, Rodriguez lưu ý rằng chúng không kể hết câu chuyện. Lập trình viên cần dựa vào đánh giá ngoại tuyến và trực tuyến của riêng mình để đưa ra quyết định tốt nhất.

📌 GitHub Models mở ra cơ hội mới cho lập trình viên thử nghiệm AI tạo sinh, cung cấp quyền truy cập vào nhiều mô hình từ các công ty hàng đầu. Dịch vụ giúp giảm rào cản, tạo lộ trình triển khai AI doanh nghiệp và giải quyết các thách thức về độ trễ, chất lượng và chi phí.

https://venturebeat.com/ai/github-models-gives-developers-new-power-to-experiment-with-gen-ai/

Không có file đính kèm.

Nguồn tham khảo

119

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2024-07-30 22:41:27

Báo cáo mới của Bộ Thương mại Hoa Kỳ ủng hộ các mô hình AI "mở"

• Bộ Thương mại Hoa Kỳ vừa công bố báo cáo ủng hộ các mô hình AI tạo sinh "trọng số mở" như Llama 3.1 của Meta.

• Báo cáo do Cơ quan Quản lý Thông tin và Viễn thông Quốc gia (NTIA) thuộc Bộ Thương mại thực hiện.

• NTIA cho rằng mô hình mở giúp mở rộng khả năng tiếp cận AI tạo sinh cho các công ty nhỏ, nhà nghiên cứu, tổ chức phi lợi nhuận và các nhà phát triển cá nhân.

• Báo cáo đề xuất chính phủ không nên hạn chế quyền truy cập vào các mô hình mở trước khi điều tra liệu các hạn chế có thể gây hại cho thị trường hay không.

• Quan điểm này tương đồng với nhận xét gần đây của Chủ tịch Ủy ban Thương mại Liên bang Lina Khan, cho rằng mô hình mở có thể thúc đẩy cạnh tranh lành mạnh.

• Alan Davidson, Trợ lý Bộ trưởng Thương mại về Truyền thông và Thông tin, nhấn mạnh tầm quan trọng của các hệ thống AI mở và kêu gọi giám sát tích cực hơn đối với rủi ro từ việc công khai trọng số mô hình.

• Báo cáo được công bố trong bối cảnh các cơ quan quản lý trong và ngoài nước đang cân nhắc các quy định có thể hạn chế hoặc áp đặt yêu cầu mới đối với các công ty muốn phát hành mô hình trọng số mở.

• California sắp thông qua dự luật SB 1047, yêu cầu các công ty huấn luyện mô hình sử dụng hơn 10^26 FLOP phải tăng cường an ninh mạng và phát triển cách "tắt" các bản sao mô hình trong tầm kiểm soát của họ.

• EU gần đây đã ấn định thời hạn tuân thủ cho các công ty theo Đạo luật AI, áp đặt quy tắc mới về bản quyền, minh bạch và ứng dụng AI.

• Meta cho biết chính sách AI của EU sẽ ngăn họ phát hành một số mô hình mở trong tương lai. Nhiều startup và công ty công nghệ lớn phản đối luật của California, cho rằng quá khắt khe.

• NTIA đề xuất chính phủ phát triển chương trình thu thập bằng chứng về rủi ro và lợi ích của mô hình mở, đánh giá và hành động dựa trên những đánh giá đó.

• Báo cáo đề xuất chính phủ nghiên cứu về tính an toàn của các mô hình AI, hỗ trợ nghiên cứu giảm thiểu rủi ro và phát triển ngưỡng chỉ số "rủi ro cụ thể" để báo hiệu nếu cần thay đổi chính sách.

• Bộ trưởng Thương mại Gina Raimondo cho biết các bước này phù hợp với sắc lệnh hành pháp về AI của Tổng thống Joe Biden, kêu gọi các cơ quan chính phủ và công ty thiết lập tiêu chuẩn mới về việc tạo ra, triển khai và sử dụng AI.

📌 Báo cáo của Bộ Thương mại Mỹ ủng hộ mô hình AI mở, đề xuất giám sát rủi ro. NTIA khuyến nghị không hạn chế quyền truy cập, nhưng cần phát triển khả năng theo dõi và đánh giá an toàn. Báo cáo phù hợp với sắc lệnh AI của Tổng thống Biden, nhằm tối đa hóa tiềm năng và giảm thiểu rủi ro của AI.

https://techcrunch.com/2024/07/29/u-s-commerce-department-report-endorses-open-ai-models/

https://www.ntia.gov/sites/default/files/publications/ntia-ai-open-model-report.pdf

Không có file đính kèm.

Nguồn tham khảo

123

AI models AI mở-nguồn mở 2024-07-30 21:58:50

Neural Magic: nén thành công phiên bản FP8 được lượng tử hóa hoàn toàn của Llama 3.1 405B

• Neural Magic vừa công bố một bước đột phá quan trọng trong việc nén mô hình AI bằng cách giới thiệu phiên bản FP8 được lượng tử hóa hoàn toàn của mô hình Llama 3.1 405B của Meta.

• Mô hình 405 tỷ tham số này có thể chạy trên bất kỳ hệ thống 8xH100 hoặc 8xA100 nào mà không gặp lỗi hết bộ nhớ (OOM) thường gặp với các phiên bản FP8 và FP16 gốc.

• Mô hình mới không chỉ giải quyết các hạn chế về bộ nhớ mà còn tăng tốc độ suy luận lên gấp 2 lần, tận dụng bộ nhớ và khả năng tính toán nhanh hơn.

• Neural Magic cung cấp hai phiên bản chính của mô hình:
- Meta-Llama-3.1-405B-Instruct-FP8-dynamic
- Meta-Llama-3.1-405B-Instruct-FP8

• Phiên bản FP8 được lượng tử hóa hoàn toàn, Meta-Llama-3.1-405B-Instruct-FP8-dynamic, giữ nguyên kiến trúc của Meta-Llama-3.1, được thiết kế cho trò chuyện kiểu trợ lý bằng nhiều ngôn ngữ.

• Mô hình chỉ giới hạn sử dụng bằng tiếng Anh và cho các ứng dụng hợp pháp. Nó được phát hành dưới phiên bản 1.0, được phát triển bởi Neural Magic và hoạt động theo giấy phép llama3.1.

• Quá trình lượng tử hóa giảm số bit trên mỗi tham số từ 16 xuống 8, giảm một nửa kích thước đĩa và yêu cầu bộ nhớ GPU.

• Mô hình có thể được tải và đánh giá trên một nút gồm 8 GPU H100 thay vì yêu cầu nhiều nút.

• Quá trình lượng tử hóa sử dụng lượng tử hóa đối xứng trên mỗi kênh, ánh xạ tuyến tính trên mỗi chiều đầu ra cho các biểu diễn FP8 của trọng số và kích hoạt được lượng tử hóa.

• Các kích hoạt được lượng tử hóa động trên cơ sở mỗi token. Điều này được thực hiện bằng LLM Compressor với 512 chuỗi từ UltraChat.

• Mô hình được lượng tử hóa có thể được triển khai hiệu quả bằng cách sử dụng backend vLLM. Quá trình triển khai sử dụng các thư viện `vllm` và `transformers` trong Python.

• Mô hình được đánh giá trên nhiều benchmark, bao gồm MMLU, ARC-Challenge, GSM-8K, Hellaswag, Winogrande và TruthfulQA.

• Mô hình lượng tử hóa Meta-Llama-3.1-405B-Instruct-FP8-dynamic đạt điểm trung bình 86.55 trên benchmark OpenLLM, gần như tương đương với điểm 86.63 của mô hình chưa lượng tử hóa, cho thấy khả năng phục hồi gần như hoàn hảo 99.91%.

• Neural Magic cung cấp các lệnh chi tiết để tái tạo kết quả đánh giá trên các benchmark khác nhau, minh họa tính mạnh mẽ của mô hình được lượng tử hóa.

• Mô hình đạt tỷ lệ phục hồi 99.91% trên MMLU (5-shot) và 100.2% trên Winogrande (5-shot), nhấn mạnh độ tin cậy và độ chính xác của nó.

📌 Neural Magic đã nén thành công mô hình Llama 3.1 405B của Meta xuống phiên bản FP8, giảm một nửa yêu cầu bộ nhớ và tăng tốc độ suy luận gấp 2 lần. Mô hình mới có thể chạy trên hệ thống 8xH100/A100 đơn lẻ, đạt hiệu suất gần như tương đương với phiên bản gốc trên các benchmark quan trọng.

https://www.marktechpost.com/2024/07/29/neural-magic-releases-fully-quantized-fp8-version-of-metas-llama-3-1-405b-model-fp8-dynamic-quantization-and-fp8-static-quantization/

Không có file đính kèm.

Nguồn tham khảo

134

AI so sánh AI mở-nguồn mở 2024-07-29 23:33:19

AI nguồn mở đang thu hẹp khoảng cách với các mô hình độc quyền hàng đầu

SEO contents:

• Startup AI Galileo vừa công bố bản đánh giá toàn diện cho thấy các mô hình ngôn ngữ nguồn mở đang nhanh chóng thu hẹp khoảng cách hiệu suất với các đối thủ độc quyền.

• Chỉ số ảo giác thường niên lần thứ 2 của Galileo đánh giá 22 mô hình ngôn ngữ lớn hàng đầu về xu hướng tạo ra thông tin không chính xác. Mặc dù các mô hình đóng vẫn dẫn đầu tổng thể, nhưng khoảng cách đã thu hẹp đáng kể chỉ trong 8 tháng.

• Claude 3.5 Sonnet của Anthropic đứng đầu chỉ số với hiệu suất tốt nhất trên tất cả các tác vụ, vượt qua các sản phẩm của OpenAI từng thống trị bảng xếp hạng năm ngoái.

• Gemini 1.5 Flash của Google nổi lên là lựa chọn hiệu quả nhất về chi phí, mang lại kết quả mạnh mẽ với giá chỉ bằng một phần nhỏ so với các mô hình hàng đầu.

• Qwen2-72B-Instruct của Alibaba hoạt động tốt nhất trong số các mô hình nguồn mở, đạt điểm cao trên các đầu vào ngắn và trung bình.

• Chỉ số tập trung vào cách các mô hình xử lý các độ dài ngữ cảnh khác nhau, từ đoạn ngắn đến tài liệu dài, phản ánh việc sử dụng AI ngày càng tăng cho các tác vụ như tóm tắt báo cáo dài hoặc trả lời câu hỏi về bộ dữ liệu lớn.

• Kết quả cho thấy mô hình lớn hơn không phải lúc nào cũng tốt hơn. Trong một số trường hợp, các mô hình nhỏ hơn vượt trội hơn các đối thủ lớn hơn, cho thấy thiết kế hiệu quả đôi khi có thể vượt qua quy mô thuần túy.

• Xu hướng này có thể làm giảm rào cản gia nhập cho các startup và nhà nghiên cứu, đồng thời tạo áp lực buộc các công ty lớn phải đổi mới nhanh hơn hoặc có nguy cơ mất lợi thế.

• Khi các mô hình nguồn mở cải thiện và trở nên hiệu quả hơn về chi phí, các công ty có thể triển khai khả năng AI mạnh mẽ mà không cần dựa vào các dịch vụ độc quyền đắt tiền.

• Galileo dự định cập nhật benchmark hàng quý, cung cấp thông tin liên tục về sự cân bằng thay đổi giữa công nghệ AI nguồn mở và độc quyền.

• Vikram Chatterji, đồng sáng lập và CEO của Galileo, dự đoán sự phát triển hơn nữa trong lĩnh vực này, bao gồm các mô hình multimodal và hệ thống dựa trên agent, đòi hỏi các framework đánh giá mới.

📌 AI nguồn mở đang thu hẹp khoảng cách với các mô hình độc quyền, với Claude 3.5 Sonnet của Anthropic dẫn đầu. Gemini 1.5 Flash của Google nổi bật về hiệu quả chi phí. Xu hướng này có thể dân chủ hóa khả năng AI tiên tiến và thúc đẩy đổi mới trên nhiều ngành.

https://venturebeat.com/ai/open-source-ai-narrows-gap-with-tech-giants-new-benchmark-reveals/

Không có file đính kèm.

Nguồn tham khảo

163

AI mở-nguồn mở Semi-Cloud-DC-Green 2024-07-27 08:20:27

Alibaba và Tencent tích hợp mô hình AI Llama 3.1 của Meta vào dịch vụ đám mây

• Alibaba và Tencent đã nhanh chóng tích hợp mô hình AI Llama 3.1 mới nhất của Meta vào dịch vụ đám mây của họ.

• Alibaba Cloud là một trong những nền tảng đầu tiên tích hợp dòng mô hình ngôn ngữ lớn (LLM) nguồn mở Llama mới nhất, công nghệ nền tảng cho các sản phẩm AI tạo sinh như ChatGPT.

• Alibaba đã công bố việc tích hợp vào ngày thứ Ba, cung cấp một tháng tài nguyên điện toán miễn phí cho các tác vụ đào tạo và suy luận với Llama 3.1.

• Tencent nhanh chóng theo sau với thông báo trong cùng ngày. Llama 3.1 hiện đã có sẵn trên nền tảng đám mây của Tencent, với các tinh chỉnh để đảm bảo khả năng sử dụng của mô hình trong hội thoại thông minh, tạo văn bản và viết lách.

• Meta đã định vị Llama 3.1 như một giải pháp thay thế mạnh mẽ cho các mô hình mã nguồn đóng hàng đầu như GPT-4 của OpenAI.

• Quan hệ địa chính trị Mỹ-Trung trở nên căng thẳng sau các lệnh trừng phạt về bán dẫn tiên tiến của phương Tây đối với Trung Quốc, bao gồm việc hạn chế tiếp cận chip AI từ Nvidia và các công ty khác.

• Joe Tsai, đồng sáng lập và chủ tịch Alibaba, đã thừa nhận vị thế tụt hậu của Trung Quốc trong cuộc đua phát triển AI, với lệnh cấm vận của Washington gây ảnh hưởng đến tham vọng AI của họ.

• Cổ phiếu Alibaba đã mất hơn 22% trong 12 tháng qua khi công ty cố gắng thực hiện tham vọng AI trong bối cảnh nền kinh tế trong nước yếu kém và cạnh tranh gay gắt.

• Giá cổ phiếu BABA đóng cửa giảm 0,25% xuống 75,21 USD trong phiên giao dịch trước giờ mở cửa vào ngày thứ Sáu.

📌 Alibaba và Tencent tích hợp mô hình AI Llama 3.1 của Meta vào dịch vụ đám mây, cung cấp tài nguyên miễn phí. Động thái này diễn ra trong bối cảnh căng thẳng Mỹ-Trung và lệnh cấm vận chip AI. Cổ phiếu Alibaba giảm 22% trong 12 tháng qua do khó khăn kinh tế và cạnh tranh gay gắt.

https://www.benzinga.com/news/24/07/39982380/alibaba-and-tencent-lap-up-metas-ai-large-language-model

Không có file đính kèm.

Nguồn tham khảo

208

AI tương lai AI mở-nguồn mở 2024-07-26 16:05:17

AI nguồn mở đang tiến gần đến điểm bùng phát - liệu đây là cơ hội hay mối đe dọa?

• Mark Zuckerberg, CEO của Meta, tuyên bố mô hình AI nguồn mở Llama mới nhất của công ty đã đạt đến trình độ "tiên tiến", ngang hàng với các mô hình AI mạnh mẽ nhất từ OpenAI, Google và Anthropic.

• Zuckerberg dự đoán từ năm sau, các mô hình Llama tiếp theo sẽ vượt lên trở thành mô hình AI tiên tiến nhất thế giới.

• Việc mở rộng khả năng tiếp cận công nghệ AI mạnh mẽ mang lại cả cơ hội và thách thức. Một mặt, nó giúp ngăn chặn một số ít công ty công nghệ lớn độc quyền AI tiên tiến. Mặt khác, nó cũng có thể đặt công nghệ mạnh mẽ vào tay những kẻ xấu như người tung tin giả, kẻ lừa đảo, khủng bố và các quốc gia đối thủ.

• Meta đã trở thành nhà vô địch chính của AI nguồn mở, mặc dù trước đây công ty này từng là một trong những "khu vườn có tường" khép kín nhất trên internet.

• Mô hình Llama không hoàn toàn nguồn mở theo định nghĩa của Open Software Initiative, nhưng đáp ứng nhiều tiêu chí về tính mở - hầu hết mọi người có thể kiểm tra hoặc điều chỉnh các "trọng số" quyết định cách thức hoạt động của chúng.

• Zuckerberg lập luận rằng nguồn mở về nhiều mặt an toàn hơn các giải pháp độc quyền truyền thống. Nhiều chuyên gia bảo mật máy tính cũng đồng tình rằng "tính mở = bảo mật".

• Tuy nhiên, vẫn còn lo ngại về việc phát hành AI mạnh mẽ dưới dạng nguồn mở. Zuckerberg cho rằng đó là một quan niệm sai lầm khi tin rằng công nghệ có giá trị nhất có thể được giữ an toàn khỏi các quốc gia đối thủ.

• Zuckerberg cũng lập luận rằng kinh nghiệm điều hành mạng xã hội cho thấy việc chống lại các ứng dụng độc hại của AI là một cuộc chạy đua có thể chiến thắng, miễn là phe tốt có máy móc mạnh mẽ hơn phe xấu.

• Trong tương lai, có thể sẽ có quy định về việc tiếp cận sức mạnh tính toán khổng lồ. Các công ty đám mây có thể phải tuân theo quy tắc "biết khách hàng của bạn". Thậm chí có đề xuất chính phủ nên kiểm soát trực tiếp việc tiếp cận các chip cần thiết để xây dựng AI tiên tiến.

• Tuy nhiên, hiện tại các mô hình AI nguồn mở vẫn đang phát triển nhanh chóng và được sử dụng rộng rãi.

📌 AI nguồn mở đang tiến gần đến điểm bùng phát với mô hình Llama của Meta. Điều này mở ra cơ hội phổ biến AI tiên tiến nhưng cũng đặt ra thách thức về an ninh và kiểm soát. Các công ty lớn như Amazon, Microsoft, Google đang ủng hộ xu hướng này, trong khi chính phủ có thể sẽ phải cân nhắc các biện pháp điều tiết trong tương lai.

https://www.ft.com/content/2968d132-e2b1-490a-9022-3cfe0e1dc0d8

#FT

Không có file đính kèm.

Nguồn tham khảo

231

AI mở-nguồn mở 2024-07-25 07:28:08

Mistral Large 2: đối thủ đáng gờm của OpenAI và Meta với chỉ 123 tỷ tham số

• Mistral vừa ra mắt mô hình AI mới nhất Large 2 vào ngày 24/7/2024, chỉ một ngày sau khi Meta phát hành Llama 3.1 405B.

• Large 2 có 123 tỷ tham số, ít hơn 1/3 so với Llama 3.1 405B nhưng được cho là có hiệu suất vượt trội trong việc tạo mã và xử lý toán học.

• Mistral tuyên bố Large 2 nâng cao tiêu chuẩn về hiệu suất và chi phí cho các mô hình mở, dựa trên một số điểm chuẩn.

• Một trong những trọng tâm chính trong quá trình đào tạo Large 2 là giảm thiểu vấn đề hallucination. Mô hình được huấn luyện để thừa nhận khi không biết điều gì đó thay vì tạo ra thông tin có vẻ hợp lý.

• Large 2 có cửa sổ ngữ cảnh 128.000 token, tương đương với khoảng 300 trang sách, cho phép xử lý lượng dữ liệu lớn trong một lần nhắc.

• Mô hình hỗ trợ đa ngôn ngữ, bao gồm tiếng Anh, Pháp, Đức, Tây Ban Nha, Ý, Bồ Đào Nha, Ả Rập, Hindi, Nga, Trung Quốc, Nhật Bản và Hàn Quốc, cùng với 80 ngôn ngữ lập trình.

• Mistral cho biết Large 2 tạo ra các phản hồi ngắn gọn hơn so với các mô hình AI hàng đầu khác.

• Large 2 có sẵn trên các nền tảng đám mây lớn như Google Vertex AI, Amazon Bedrock, Azure AI Studio và IBM watsonx.ai.

• Người dùng có thể sử dụng mô hình mới trên nền tảng "le Plateforme" của Mistral dưới tên "mistral-large-2407" và dùng thử miễn phí trên đối thủ cạnh tranh ChatGPT của công ty là "le Chat".

• Mistral gần đây đã huy động được 640 triệu USD trong vòng gọi vốn Series B, do General Catalyst dẫn đầu, với định giá 6 tỷ USD.

• Mặc dù Mistral là một trong những công ty mới nhất trong lĩnh vực AI, họ đang nhanh chóng phát triển các mô hình AI tiên tiến.

• Tuy nhiên, cần lưu ý rằng các mô hình của Mistral không phải là nguồn mở theo nghĩa truyền thống - bất kỳ ứng dụng thương mại nào của mô hình đều cần giấy phép trả phí.

• Large 2 và Llama 3.1 của Meta đều thiếu khả năng đa phương thức (multimodal), một lĩnh vực mà OpenAI đang dẫn đầu với khả năng xử lý đồng thời hình ảnh và văn bản.

📌 Mistral Large 2 với 123 tỷ tham số đang thách thức các mô hình AI hàng đầu từ OpenAI và Meta. Mô hình này vượt trội về hiệu suất mã hóa, toán học và có cửa sổ ngữ cảnh 128.000 token, hỗ trợ 12 ngôn ngữ tự nhiên và 80 ngôn ngữ lập trình.

https://techcrunch.com/2024/07/24/mistral-releases-large-2-meta-openai-ai-models/

Không có file đính kèm.

Nguồn tham khảo

131

AI mở-nguồn mở 2024-07-24 23:18:48

Vì sao các công ty Trung Quốc đang đặt cược vào AI nguồn mở?

• Nhiều mô hình AI của Trung Quốc dễ tiếp cận hơn dự kiến ở nước ngoài, có thể truy cập thông qua đăng ký tài khoản hoặc nền tảng AI nguồn mở như Hugging Face.

• Xu hướng mở nguồn mô hình AI đang giúp các sản phẩm AI Trung Quốc tiếp cận dễ dàng hơn với quốc tế.

• Alibaba đã chọn cung cấp mô hình Qwen của họ dưới dạng nguồn mở và cho phép sử dụng miễn phí. Qwen2 đứng đầu bảng xếp hạng hiệu suất các mô hình LLM nguồn mở trên Hugging Face.

• Các startup Trung Quốc như DeepSeek và 01.AI cũng đã mở nguồn mô hình của họ, đạt thứ hạng cao trên bảng xếp hạng.

• Đối với Alibaba, chiến lược mở nguồn AI nhằm phát triển dịch vụ đám mây. Nếu mô hình nguồn mở của họ trở nên phổ biến, nhiều người sẽ sử dụng Alibaba Cloud để xây dựng ứng dụng AI.

• Đối với các startup AI Trung Quốc, AI nguồn mở cung cấp lộ trình thương mại hóa nhanh hơn. Họ có thể điều chỉnh các mô hình nguồn mở hiện có để đẩy nhanh quá trình phát triển sản phẩm.

• Do hạn chế tiếp cận chip tiên tiến, các công ty Trung Quốc sẵn sàng thử nghiệm các ý tưởng mới để cải thiện mô hình, dẫn đến các mô hình hiệu quả hơn và rẻ hơn.

• Các mô hình AI nguồn mở này thể hiện một tương lai thay thế, không chỉ bị thống trị bởi các công ty lớn như OpenAI, Microsoft và Google.

• Các nhà khoa học và công ty Trung Quốc đang tạo ra các mô hình LLM nguồn mở tiên tiến, thậm chí vượt qua các sản phẩm từ phương Tây.

• Startup Abacus AI ở San Francisco đã phát hành một mô hình được điều chỉnh từ mô hình Qwen nguồn mở của Alibaba, cho thấy sự trao đổi hai chiều trong phát triển AI nguồn mở.

📌 Các công ty Trung Quốc đang đặt cược vào AI nguồn mở để thương mại hóa nhanh chóng và được công nhận toàn cầu. Alibaba và các startup như DeepSeek đã phát hành mô hình hiệu suất cao, cạnh tranh với các đối thủ phương Tây. Chiến lược này thúc đẩy đổi mới và tạo ra một tương lai AI đa dạng hơn.

https://www.technologyreview.com/2024/07/24/1095239/chinese-companies-open-source-ai/

#MIT

Không có file đính kèm.

Nguồn tham khảo

102

AI mở-nguồn mở 2024-07-24 07:48:32

Mark Zuckerberg công bố mô hình AI Llama 3.1 mới, cạnh tranh với OpenAI và Google

• Meta vừa ra mắt mô hình AI mới có tên Llama 3.1, được CEO Mark Zuckerberg mô tả là "tiên tiến nhất" và có thể cạnh tranh với các sản phẩm tương tự từ OpenAI và Google.

• Llama 3.1 mất vài tháng để huấn luyện với chi phí hàng trăm triệu USD về sức mạnh tính toán. Đây là bản nâng cấp lớn so với Llama 3 ra mắt hồi tháng 4.

• Mô hình mới có nhiều tính năng mới như khả năng lập luận cải tiến để giải quyết các bài toán phức tạp, tổng hợp nhanh chóng toàn bộ nội dung sách, tạo hình ảnh theo yêu cầu bằng văn bản.

• Meta sử dụng Llama để cung cấp năng lượng cho chatbot Meta AI trên các ứng dụng như Instagram, WhatsApp và web. Zuckerberg cho biết Meta AI có "hàng trăm triệu" người dùng.

• Zuckerberg ước tính chi phí đào tạo Llama 3 là "hàng trăm triệu USD" và dự đoán các mô hình trong tương lai sẽ tốn "hàng tỷ USD" về sức mạnh tính toán.

• Meta theo đuổi chiến lược nguồn mở, cho phép công chúng sử dụng miễn phí công nghệ đằng sau Llama miễn là tuân thủ "chính sách sử dụng được chấp nhận".

• Zuckerberg hy vọng chiến lược này sẽ giúp công nghệ của Meta trở thành nền tảng cho các startup và sản phẩm thành công khác, tạo ảnh hưởng lớn hơn đến sự phát triển của ngành.

• Meta dự kiến sẽ có khoảng 350.000 GPU H100 của Nvidia vào cuối năm nay, với giá mỗi chip có thể lên tới hàng chục nghìn USD.

• Zuckerberg bác bỏ ý kiến cho rằng việc đào tạo Llama trên dữ liệu từ Facebook và Instagram là lợi thế chính, nói rằng Google và các công ty khác cũng có thể sử dụng nhiều dữ liệu đó.

• Ông cũng phản đối việc hạn chế công nghệ AI với các nước khác, cho rằng điều đó sẽ cản trở sự đổi mới và khả năng dẫn đầu của Mỹ trong lĩnh vực này.

📌 Meta ra mắt Llama 3.1, đầu tư hàng trăm triệu USD vào AI để cạnh tranh với OpenAI và Google. Zuckerberg theo đuổi chiến lược nguồn mở, dự kiến chi hàng tỷ USD cho các mô hình tương lai. Meta AI đạt hàng trăm triệu người dùng, với tham vọng trở thành chatbot phổ biến nhất thế giới cuối năm nay.

https://www.bloomberg.com/news/articles/2024-07-23/meta-s-zuckerberg-aims-to-rival-openai-google-with-new-llama-ai-model?srnd=citylab

Không có file đính kèm.

Nguồn tham khảo

196

AI mở-nguồn mở AI so sánh 2024-07-24 07:44:53

sciPhi ra mắt Triplex: mô hình ngôn ngữ mã nguồn mở giúp giảm chi phí tạo đồ thị tri thức xuống 10 lần

• SciPhi vừa công bố Triplex - mô hình ngôn ngữ tiên tiến (LLM) mã nguồn mở chuyên dụng để xây dựng đồ thị tri thức.

• Triplex giúp chuyển đổi dữ liệu phi cấu trúc số lượng lớn thành dạng có cấu trúc, giảm đáng kể chi phí và độ phức tạp so với các phương pháp truyền thống.

• Mô hình này có sẵn trên các nền tảng như HuggingFace và Ollama, hứa hẹn trở thành công cụ quan trọng cho các nhà khoa học dữ liệu và phân tích.

• Triplex được thiết kế để xây dựng đồ thị tri thức hiệu quả, vượt trội so với các mô hình tiên tiến như GPT-4o.

• Đồ thị tri thức rất quan trọng để trả lời các truy vấn quan hệ phức tạp, nhưng phương pháp xây dựng truyền thống tốn kém và đòi hỏi nhiều tài nguyên.

• Ví dụ, quy trình GraphRAG gần đây của Microsoft vẫn còn tốn kém, yêu cầu ít nhất một token đầu ra cho mỗi token đầu vào.

• Triplex giúp giảm chi phí tạo đồ thị tri thức xuống 10 lần bằng cách chuyển đổi văn bản phi cấu trúc thành "bộ ba ngữ nghĩa" - các phần tử cơ bản của đồ thị tri thức.

• Khi so sánh với GPT-4o, Triplex cho thấy hiệu suất vượt trội về cả chi phí và độ chính xác. Mô hình trích xuất bộ ba của nó đạt kết quả tương đương GPT-4o nhưng với chi phí thấp hơn nhiều.

• Việc giảm chi phí đáng kể này là nhờ kích thước mô hình nhỏ hơn và khả năng hoạt động mà không cần ngữ cảnh few-shot mở rộng.

• Triplex được đào tạo thêm bằng DPO (Tối ưu hóa lập trình động) và KTO (Tối ưu hóa bộ ba tri thức), sử dụng bộ dữ liệu dựa trên ưu tiên thông qua bỏ phiếu đa số và sắp xếp tô pô.

• Kết quả đánh giá Claude-3.5 Sonnet cho thấy Triplex vượt trội so với các mô hình khác như triplex-base và triplex-kto, với tỷ lệ thắng trên 50% khi so sánh trực tiếp với GPT-4o.

• Hiệu suất xuất sắc của Triplex dựa trên việc đào tạo trên bộ dữ liệu đa dạng và toàn diện, bao gồm các nguồn uy tín như DBPedia, Wikidata, văn bản web và bộ dữ liệu tổng hợp.

• Một ứng dụng ngay lập tức của Triplex là xây dựng đồ thị tri thức cục bộ sử dụng công cụ R2R RAG kết hợp với Neo4J.

📌 SciPhi ra mắt Triplex - mô hình ngôn ngữ mã nguồn mở tiên tiến giúp giảm chi phí xây dựng đồ thị tri thức xuống 10 lần. Với hiệu suất vượt trội so với GPT-4o và khả năng chuyển đổi dữ liệu phi cấu trúc hiệu quả, Triplex mở ra cơ hội mới cho phân tích dữ liệu và tạo ra insights trong nhiều ngành công nghiệp.

https://www.marktechpost.com/2024/07/22/sciphi-open-sourced-triplex-a-sota-llm-for-knowledge-graph-construction-provides-data-structuring-with-cost-effective-and-efficient-solutions/

Không có file đính kèm.

Nguồn tham khảo

163

AI mở-nguồn mở AI models 2024-07-23 22:37:54

Meta ra mắt Llama 3.1, với 405 tỷ tham số, đấu nhau ngang ngửa GPT4-o và Claude 3.5 Sonnet

- Meta chính thức ra mắt phiên bản lớn nhất của mô hình ngôn ngữ mở Llama, phiên bản 405 tỷ tham số mang tên Llama-3.1.
- Llama 3.1 là bản cập nhật của Llama 3 ra mắt vào tháng 4/2024, trước đó chỉ có phiên bản 8 tỷ và 70 tỷ tham số.
- Phiên bản 405 tỷ tham số có thể "dạy" các mô hình nhỏ hơn và tạo dữ liệu tổng hợp.
- Theo Ragavan Srinivasan, Phó Chủ tịch Quản lý Chương trình AI tại Meta, mô hình này sẽ mang lại hiệu suất tiên tiến nhất đối với các mô hình mã nguồn mở và cạnh tranh mạnh mẽ với nhiều mô hình độc quyền, mã đóng hàng đầu.
- Llama 3.1 sẽ hỗ trợ đa ngôn ngữ ngay từ khi ra mắt, bao gồm tiếng Anh, Bồ Đào Nha, Tây Ban Nha, Ý, Đức, Pháp, Hindi và Thái.
- Cửa sổ ngữ cảnh của Llama 3.1 đã được mở rộng lên 128.000 token, tương đương với lượng văn bản trong một cuốn tiểu thuyết gần 400 trang.
- Meta đã thử nghiệm Llama 3.1 trên hơn 150 bộ dữ liệu benchmark và thực hiện đánh giá có hướng dẫn của con người cho các tình huống thực tế.
- Mô hình 405B "cạnh tranh với các mô hình nền tảng hàng đầu trên nhiều tác vụ bao gồm GPT-4, GPT-4o và Claude 3.5 Sonnet".
- Meta cũng cập nhật giấy phép cho tất cả các mô hình của mình để cho phép chưng cất mô hình và tạo dữ liệu tổng hợp.
- Chưng cất tri thức cho phép người dùng chuyển giao kiến thức hoặc đào tạo từ mô hình AI lớn hơn sang mô hình nhỏ hơn.
- Khả năng tạo dữ liệu tổng hợp sẽ cho phép các mô hình khác học từ thông tin mà không ảnh hưởng đến bản quyền, dữ liệu cá nhân hoặc nhạy cảm.
- Meta đã tối ưu hóa ngăn xếp đào tạo và sử dụng hơn 16.000 GPU Nvidia H100 để đào tạo mô hình 405B.
- Llama 3.1 sẽ được mở mã nguồn. Người dùng có thể truy cập nó thông qua AWS, Nvidia, Groq, Dell, Databricks, Microsoft Azure, Google Cloud và các thư viện mô hình khác.

📌 Llama 3.1 405B của Meta hứa hẹn mang lại hiệu suất vượt trội, cạnh tranh mạnh mẽ với các mô hình đóng. Mô hình này có thể dạy các phiên bản nhỏ hơn, tạo dữ liệu tổng hợp, hỗ trợ đa ngôn ngữ với cửa sổ ngữ cảnh lên tới 128.000 token. Llama 3.1 sẽ được mở mã nguồn, có thể truy cập qua nhiều nền tảng đám mây và thư viện mô hình phổ biến.

https://venturebeat.com/ai/meta-unleashes-its-most-powerful-ai-model-llama-3-1-with-405b-parameters/

Dòng "tút" của Mark Zuckerberg: AI mã nguồn mở là tương lai, Llama sẽ trở thành chuẩn mực

- Mark Zuckerberg tin rằng AI sẽ phát triển theo hướng mã nguồn mở tương tự như Linux đã làm với Unix trước đây.
- Meta đang phát hành các mô hình Llama 3.1 405B, 70B và 8B. Mô hình 405B là mô hình AI mã nguồn mở đầu tiên đạt trình độ tiên phong.
- Nhiều công ty như Amazon, Databricks, Nvidia, Scale.AI, Dell, Deloitte sẽ hỗ trợ hệ sinh thái phát triển xung quanh Llama.
- Mã nguồn mở mang lại nhiều lợi ích cho các nhà phát triển như: tự do tinh chỉnh mô hình, kiểm soát, bảo mật dữ liệu, chi phí thấp, tiêu chuẩn lâu dài.
- Mã nguồn mở tốt cho Meta vì đảm bảo họ luôn có công nghệ tốt nhất, không bị khóa vào hệ sinh thái đóng. Việc mở mã nguồn không làm giảm lợi thế của Meta.
- Mã nguồn mở là cần thiết cho một tương lai AI tích cực, đảm bảo nhiều người tiếp cận được lợi ích của AI, sức mạnh không tập trung vào một số ít công ty.
- AI mã nguồn mở sẽ an toàn hơn vì minh bạch, có thể được giám sát rộng rãi. Các tổ chức lớn triển khai AI mã nguồn mở quy mô lớn sẽ thúc đẩy an ninh và ổn định xã hội.
- Chiến lược tốt nhất của Mỹ là xây dựng hệ sinh thái mở mạnh mẽ, hợp tác chặt chẽ với chính phủ và đồng minh.
- Hầu hết các công ty công nghệ và nghiên cứu khoa học hàng đầu hiện nay được xây dựng trên phần mềm mã nguồn mở. Thế hệ tiếp theo sẽ sử dụng AI mã nguồn mở.

📌 Mark Zuckerberg tin tưởng mạnh mẽ rằng mô hình AI Llama mã nguồn mở của Meta sẽ trở thành tiêu chuẩn ngành, mang lại lợi ích to lớn cho các nhà phát triển, cho Meta và cho cả thế giới. Ông cho rằng AI mã nguồn mở sẽ an toàn và có lợi hơn các lựa chọn thay thế, giúp nhiều người tiếp cận được sức mạnh của AI, thúc đẩy an ninh và phát triển kinh tế.

https://www.facebook.com/story.php?story_fbid=10115716861061241&id=4&mibextid=WC7FNe&rdid=UJNAed944ITlVPyD

Không có file đính kèm.

Nguồn tham khảo

191

AI mở-nguồn mở 2024-07-22 23:15:51

Arcee-Nova: Mô hình ngôn ngữ nguồn mở mới dựa trên Qwen2-72B với hiệu suất tiệm cận GPT-4

• Arcee AI vừa giới thiệu Arcee-Nova, một mô hình ngôn ngữ nguồn mở mới dựa trên Qwen2-72B-Instruct và được tinh chỉnh bằng tập dữ liệu tổng quát.

• Arcee-Nova đã đạt hiệu suất tiệm cận GPT-4 (phiên bản tháng 5/2023) khi được đánh giá trên cùng bộ tiêu chí với OpenLLM Leaderboard 2.0.

• Mô hình được tăng cường bằng kỹ thuật học tăng cường từ phản hồi của con người (RLHF), giúp nâng cao khả năng trong nhiều lĩnh vực.

• Arcee-Nova hiện đang là mô hình nguồn mở có hiệu suất cao nhất trên OpenLLM Leaderboard 2.0, khẳng định tiềm năng cạnh tranh với các mô hình AI hàng đầu hiện nay.

• Các phiên bản GGUF của Arcee-Nova đã được cung cấp trên nền tảng Hugging Face, tăng khả năng tiếp cận cho các nhà phát triển và nghiên cứu.

• Mô hình thể hiện khả năng vượt trội trong nhiều lĩnh vực như: lập luận logic, viết sáng tạo, lập trình, và hiểu ngôn ngữ tổng quát.

• Arcee-Nova có tiềm năng ứng dụng rộng rãi trong kinh doanh, bao gồm: dịch vụ khách hàng, tạo nội dung, phát triển phần mềm, phân tích dữ liệu, nghiên cứu và phát triển, pháp lý và tuân thủ, giáo dục và đào tạo.

• Trong lĩnh vực dịch vụ khách hàng, Arcee-Nova có thể hỗ trợ xây dựng chatbot và trợ lý ảo tiên tiến, nâng cao chất lượng tương tác.

• Đối với phát triển phần mềm, mô hình có khả năng hỗ trợ tạo mã và kiểm tra chất lượng, tăng hiệu quả quá trình phát triển.

• Trong lĩnh vực phân tích dữ liệu, Arcee-Nova giúp cải thiện việc diễn giải dữ liệu và tạo báo cáo, cung cấp những hiểu biết sâu sắc hơn cho doanh nghiệp.

• Mô hình cũng có thể hỗ trợ đáng kể trong nghiên cứu và phát triển thông qua việc tổng hợp tài liệu và tạo giả thuyết, đẩy nhanh quá trình nghiên cứu.

• Trong lĩnh vực pháp lý, Arcee-Nova có khả năng phân tích hợp đồng và thực hiện kiểm tra tuân thủ quy định, đảm bảo tính pháp lý cho doanh nghiệp.

• Arcee AI bày tỏ lòng biết ơn đối với cộng đồng AI nguồn mở và đội ngũ Qwen vì những đóng góp nền tảng cho Qwen2-72B.

• Công ty khuyến khích các nhà nghiên cứu, phát triển và doanh nghiệp khám phá tiềm năng của Arcee-Nova, đồng thời cam kết tiếp tục thúc đẩy sự phát triển của AI nguồn mở.

📌 Arcee-Nova, mô hình ngôn ngữ nguồn mở mới từ Arcee AI, đạt hiệu suất tiệm cận GPT-4 (05/2023). Dựa trên Qwen2-72B, tích hợp RLHF, mô hình thể hiện khả năng vượt trội trong nhiều lĩnh vực, mở ra tiềm năng ứng dụng rộng rãi trong kinh doanh từ dịch vụ khách hàng đến R&D.

https://www.marktechpost.com/2024/07/21/arcee-ai-introduces-arcee-nova-a-new-open-sourced-language-model-based-on-qwen2-72b-and-approaches-gpt-4-performance-level/

Không có file đính kèm.

Nguồn tham khảo

119

AI models AI mở-nguồn mở 2024-07-22 07:38:30

Athene-Llama3-70B: đạt điểm Arena-Hard-Auto 77,8%, ngang ngửa với GPT-4 và Claude-3.5-Sonnet

• Nexusflow vừa phát hành Athene-Llama3-70B, một mô hình chat mã nguồn mở được tinh chỉnh từ Llama-3-70B-Instruct của Meta AI.

• Athene-70B đạt điểm Arena-Hard-Auto 77,8%, ngang ngửa với các mô hình độc quyền như GPT-4 và Claude-3.5-Sonnet. Đây là bước tiến vượt bậc so với Llama-3-70B-Instruct (46,6%).

• Sự cải thiện này đến từ quy trình huấn luyện sau đào tạo của Nexusflow, nhằm nâng cao các hành vi cụ thể của mô hình.

• Athene-70B hiện đang được thử nghiệm công khai trên nền tảng Chatbot Arena.

• Nexusflow đã phát triển các tiêu chuẩn đánh giá nội bộ để đánh giá khả năng của LLM trong việc tuân theo hướng dẫn, lập trình, viết sáng tạo và xử lý đa ngôn ngữ.

• Dựa trên đánh giá này, dữ liệu ưu tiên chất lượng cao được tuyển chọn cho quá trình Học tăng cường từ phản hồi của con người (RLHF).

• Quy trình này dẫn đến cải thiện hiệu suất đáng kể so với Llama-3-70B-Instruct trên nhiều khía cạnh quan trọng.

• Athene-70B thể hiện khả năng của Nexusflow trong việc tùy chỉnh mô hình cho các yêu cầu doanh nghiệp cụ thể thông qua huấn luyện sau đào tạo có mục tiêu.

• Dựa trên thành công trước đó với Starling-7B và NexusRaven-V2, Nexusflow hướng tới việc nâng cấp các mô hình của mình để đáp ứng tiêu chuẩn ứng dụng cấp doanh nghiệp.

• Công ty cung cấp giải pháp tùy chỉnh để giúp doanh nghiệp vượt trội trong công nghệ copilot và agent AI tạo sinh.

• Nexusflow mời gọi các tổ chức khám phá cách Athene-70B có thể nâng cao sáng kiến AI của họ bằng cách liên hệ để biết thêm thông tin và cơ hội hợp tác.

📌 Athene-Llama3-70B là mô hình chat mã nguồn mở 70 tỷ tham số, đạt điểm Arena-Hard-Auto 77,8%, cạnh tranh với GPT-4 và Claude-3.5. Cải tiến từ Llama-3-70B-Instruct (46,6%) nhờ RLHF của Nexusflow, nâng cao khả năng trong nhiều lĩnh vực, hứa hẹn ứng dụng AI tạo sinh cấp doanh nghiệp.

https://www.marktechpost.com/2024/07/21/athene-llama3-70b-released-an-open-weight-llm-trained-through-rlhf-based-on-llama-3-70b-instruct/

Không có file đính kèm.

Nguồn tham khảo

116

AI mở-nguồn mở AI nhỏ 2024-07-20 23:35:17

Apple vừa mở mã nguồn mô hình ngôn ngữ DCLM Baseline-7B, vượt trội hơn cả mô hình LLaMA-2 của Meta

- Apple vừa công bố mở mã nguồn mô hình ngôn ngữ DCLM Baseline-7B, một phần của dự án Decentralized Compute Language Models (DCLM).
- Mô hình này được huấn luyện trên tập dữ liệu khổng lồ gồm 1,5 nghìn tỷ token, bao gồm cả dữ liệu từ trang web, sách và bài báo.
- Kết quả cho thấy DCLM Baseline-7B vượt trội hơn cả mô hình LLaMA-2 7B của Meta trên các bài kiểm tra chuẩn như MMLU (71,6% so với 69,0%) và HellaSwag (79,2% so với 77,8%).
- DCLM Baseline-7B cũng đạt điểm cao hơn trên bài kiểm tra TruthfulQA với 61,4% so với 58,1% của LLaMA-2 7B.
- Apple hy vọng việc mở mã nguồn sẽ thúc đẩy nghiên cứu và phát triển các mô hình ngôn ngữ phi tập trung (decentralized language models).
- Hiện tại mô hình và mã nguồn của DCLM Baseline-7B đã được công bố trên kho lưu trữ GitHub của Apple.
- Đây là một bước tiến quan trọng của Apple trong lĩnh vực AI, đặc biệt là các mô hình ngôn ngữ quy mô lớn.

📌 Apple vừa tạo tiếng vang lớn khi mở mã nguồn mô hình ngôn ngữ DCLM Baseline-7B, vượt trội hơn cả LLaMA-2 7B của Meta trên các bài kiểm tra chuẩn như MMLU (71,6%) và HellaSwag (79,2%). Bước đi này hứa hẹn thúc đẩy mạnh mẽ nghiên cứu về các mô hình ngôn ngữ phi tập trung.

Citations:
[1] https://analyticsindiamag.com/ai-news-updates/apple-open-sources-dclm-baseline-7b-outperforms-metas-llama-2/

Không có file đính kèm.

Nguồn tham khảo

198

AI so sánh AI mở-nguồn mở 2024-07-19 21:56:20

Groq phát hành mô hình AI nguồn mở Llama-3 vượt trội GPT-4 và Claude trong khả năng gọi hàm

• Groq, một startup phần cứng AI, đã phát hành hai mô hình ngôn ngữ nguồn mở vượt trội các gã khổng lồ công nghệ về khả năng sử dụng công cụ chuyên biệt.

• Mô hình Llama-3-Groq-70B-Tool-Use đã giành vị trí số 1 trên Bảng xếp hạng Gọi hàm Berkeley (BFCL), vượt qua các sản phẩm độc quyền từ OpenAI, Google và Anthropic.

• Mô hình 70B tham số đạt độ chính xác tổng thể 90,76% trên BFCL, trong khi mô hình 8B nhỏ hơn đạt 89,06%, xếp hạng thứ 3 tổng thể.

• Groq phát triển các mô hình này cùng với công ty nghiên cứu AI Glaive, sử dụng kết hợp tinh chỉnh toàn bộ và Tối ưu hóa Ưu tiên Trực tiếp (DPO) trên mô hình cơ sở Llama-3 của Meta.

• Nhóm nhấn mạnh việc chỉ sử dụng dữ liệu tổng hợp được tạo ra một cách có đạo đức để đào tạo, giải quyết các mối quan ngại phổ biến về quyền riêng tư dữ liệu và overfitting.

• Bằng cách đạt hiệu suất hàng đầu chỉ sử dụng dữ liệu tổng hợp, Groq thách thức quan niệm cho rằng cần lượng lớn dữ liệu thực tế để tạo ra các mô hình AI tiên tiến.

• Các mô hình hiện có sẵn thông qua API Groq và Hugging Face, một nền tảng phổ biến để chia sẻ các mô hình học máy.

• Groq cũng ra mắt demo công khai trên Hugging Face Spaces, cho phép người dùng tương tác với mô hình và kiểm tra khả năng sử dụng công cụ của nó.

• Cộng đồng AI đã phản ứng nhiệt tình, với nhiều nhà nghiên cứu và nhà phát triển háo hức khám phá khả năng của các mô hình.

• Cách tiếp cận nguồn mở của Groq tương phản rõ rệt với các hệ thống đóng của các công ty công nghệ lớn hơn.

• Sự thành công của các mô hình Groq có thể dẫn đến một sự thay đổi mô hình trong cách AI được phát triển và triển khai, có khả năng dân chủ hóa quyền truy cập vào các khả năng AI tiên tiến.

📌 Mô hình AI nguồn mở Llama-3-Groq-70B của Groq đạt vị trí số 1 trên bảng xếp hạng BFCL với độ chính xác 90,76%, vượt qua GPT-4 và Claude. Sử dụng dữ liệu tổng hợp đạo đức, mô hình mở ra khả năng dân chủ hóa AI và thúc đẩy đổi mới trong ngành.

https://venturebeat.com/ai/groq-open-source-llama-ai-model-tops-leaderboard-outperforming-gpt-4o-and-claude-in-function-calling/

Không có file đính kèm.

Nguồn tham khảo

185

AI mở-nguồn mở 2024-07-18 07:33:29

Google tung "trợ lý ảo" nguồn mở giúp lập trình viên giảm 90% công sức quản lý dự án

• Google vừa công bố Project Oscar tại sự kiện Google I/O Bengaluru - một nền tảng nguồn mở giúp các nhóm phát triển sử dụng và xây dựng các tác nhân AI để quản lý chương trình phần mềm.

• Project Oscar hiện tập trung vào các dự án nguồn mở, nhưng trong tương lai có thể mở rộng để quản lý cả các dự án mã nguồn đóng.

• Karthik Padmanabhan, Trưởng bộ phận Quan hệ Nhà phát triển tại Google Ấn Độ, tin rằng AI có tiềm năng cải thiện toàn bộ vòng đời phát triển phần mềm.

• Thông qua Project Oscar, các nhà phát triển có thể tạo ra các tác nhân AI hoạt động trong suốt vòng đời phát triển phần mềm, bao gồm tác nhân phát triển, tác nhân lập kế hoạch, tác nhân thời gian chạy và tác nhân hỗ trợ.

• Các tác nhân này có thể tương tác bằng ngôn ngữ tự nhiên, cho phép người dùng đưa ra hướng dẫn mà không cần chỉnh sửa mã.

• Cameron Balahan, Giám đốc sản phẩm nhóm cho ngôn ngữ lập trình nguồn mở Go của Google, cho biết Oscar đã được triển khai cho dự án Go để giúp theo dõi báo cáo lỗi và tương tác với người đóng góp.

• Dự án Go có hơn 93.000 commit và 2.000 người đóng góp, khiến việc theo dõi tất cả các vấn đề phát sinh trở nên cực kỳ khó khăn.

• Tác nhân AI được phát triển thông qua Project Oscar cho Go có khả năng làm phong phú báo cáo sự cố bằng cách xem xét dữ liệu hoặc sử dụng các công cụ phát triển để nổi bật thông tin quan trọng nhất.

• Tác nhân cũng tương tác với người báo cáo sự cố để làm rõ bất kỳ vấn đề nào, ngay cả khi người bảo trì không trực tuyến.

• Balahan cho biết Project Oscar sẽ sớm được triển khai cho các dự án nguồn mở khác của Google.

• Tầm nhìn của Google là cho phép bất kỳ ai cũng có thể triển khai Oscar vào dự án của họ, dù là nguồn mở hay đóng, và sử dụng các tác nhân có sẵn hoặc tự tạo ra.

• Các trợ lý AI như GitHub Copilot và Amazon CodeWhisperer đã được chứng minh là tăng năng suất của nhà phát triển.

• Các trợ lý AI khác như Amazon Q giúp người dùng truy vấn dữ liệu nội bộ hoặc cộng tác với các nhóm khác.

📌 Project Oscar của Google là nền tảng nguồn mở giúp phát triển tác nhân AI quản lý phần mềm. Đã triển khai cho dự án Go với 93.000 commit và 2.000 người đóng góp, Oscar hỗ trợ theo dõi lỗi, tương tác người dùng và nâng cao hiệu quả phát triển phần mềm.

https://venturebeat.com/ai/google-brings-ai-agent-platform-project-oscar-open-source/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2024-07-17 07:16:20

Mistral ra mắt Codestral Mamba - mô hình AI tạo mã nguồn nhanh hơn, dài hơn và Mathstral chuyên toán học, khoa học

• Mistral, startup AI Pháp, vừa ra mắt 2 mô hình ngôn ngữ lớn (LLM) mới: Codestral Mamba cho lập trình viên và Mathstral cho toán học/khoa học.

• Codestral Mamba 7B sử dụng kiến trúc Mamba mới, giúp tăng tốc độ suy luận và mở rộng ngữ cảnh so với kiến trúc transformer thông thường.

• Mô hình này có thể xử lý đầu vào lên tới 256.000 token, gấp đôi GPT-4 của OpenAI.

• Trong các bài kiểm tra HumanEval, Codestral Mamba vượt trội hơn các mô hình nguồn mở đối thủ như CodeLlama 7B, CodeGemma-1.17B và DeepSeek.

• Codestral Mamba được cung cấp miễn phí trên API la Plateforme của Mistral, với giấy phép nguồn mở Apache 2.0.

• Mathstral 7B là mô hình AI chuyên biệt cho lập luận toán học và khám phá khoa học, được phát triển cùng với Project Numina.

• Mathstral có cửa sổ ngữ cảnh 32K và cũng sử dụng giấy phép nguồn mở Apache 2.0.

• Mistral tuyên bố Mathstral vượt trội hơn mọi mô hình được thiết kế cho lập luận toán học.

• Cả hai mô hình đều có thể truy cập qua la Plateforme của Mistral và HuggingFace.

• Mistral gần đây đã huy động được 640 triệu USD trong vòng gọi vốn Series B, nâng định giá lên gần 6 tỷ USD.

• Công ty cũng nhận được đầu tư từ các gã khổng lồ công nghệ như Microsoft và IBM.

• Mistral đang cạnh tranh mạnh mẽ với các nhà phát triển AI khác như OpenAI và Anthropic.

• Tạo mã và trợ lý lập trình đã trở thành ứng dụng phổ biến của các mô hình AI, với các nền tảng như GitHub Copilot, Amazon CodeWhisperer và Codenium ngày càng được ưa chuộng.

📌 Mistral tung ra 2 mô hình AI mới: Codestral Mamba cho lập trình với 256.000 token và Mathstral cho toán học. Cả hai đều nguồn mở, miễn phí và vượt trội so với đối thủ trong các bài kiểm tra. Mistral đã huy động 640 triệu USD, định giá 6 tỷ USD, cạnh tranh mạnh với OpenAI và Anthropic.

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/

Không có file đính kèm.

Nguồn tham khảo

AI smartphone AI nhỏ AI mở-nguồn mở 2024-07-17 02:53:48

Hugging Face ra mắt dòng mô hình ngôn ngữ SmolLM nhỏ gọn nhưng mạnh mẽ, vượt trội so với các đối thủ lớn

• Hugging Face vừa công bố dòng mô hình ngôn ngữ nhỏ gọn SmolLM, vượt trội so với các sản phẩm tương tự từ Microsoft, Meta và Alibaba về hiệu suất.

• SmolLM có 3 kích cỡ: 135 triệu, 360 triệu và 1,7 tỷ tham số, phù hợp với nhiều loại tài nguyên tính toán khác nhau.

• Mặc dù nhỏ gọn, các mô hình này đạt kết quả vượt trội trong các bài kiểm tra về lập luận thông thường và kiến thức thế giới.

• SmolLM-135M vượt qua MobileLM-125M của Meta dù được huấn luyện với ít token hơn.

• SmolLM-360M vượt trội so với tất cả các mô hình dưới 500 triệu tham số, bao gồm cả sản phẩm từ Meta và Qwen.

• Mô hình chủ lực SmolLM-1.7B đánh bại Phi-1.5 của Microsoft, MobileLM-1.5B của Meta và Qwen2-1.5B trong nhiều bài kiểm tra.

• Hugging Face công khai toàn bộ quá trình phát triển, từ tuyển chọn dữ liệu đến các bước huấn luyện, thể hiện cam kết với giá trị nguồn mở và nghiên cứu có thể tái tạo.

• Hiệu suất ấn tượng của SmolLM đến từ việc tuyển chọn kỹ lưỡng dữ liệu huấn luyện, bao gồm Cosmopedia v2, Python-Edu và FineWeb-Edu.

• SmolLM có thể chạy trên các thiết bị cá nhân như điện thoại và laptop, loại bỏ nhu cầu điện toán đám mây, giảm chi phí và mối lo ngại về quyền riêng tư.

• Việc phát triển các mô hình nhỏ gọn nhưng mạnh mẽ như SmolLM đại diện cho một bước chuyển quan trọng trong lĩnh vực AI, giải quyết các vấn đề về tác động môi trường và quyền riêng tư dữ liệu.

• Hugging Face đã phát hành các mô hình SmolLM, bộ dữ liệu và mã huấn luyện, cho phép cộng đồng AI toàn cầu và các nhà phát triển khám phá, cải tiến và xây dựng dựa trên phương pháp tiếp cận đổi mới này.

📌 SmolLM của Hugging Face mang AI mạnh mẽ đến thiết bị cá nhân, vượt trội so với đối thủ lớn. Với 3 kích cỡ từ 135 triệu đến 1,7 tỷ tham số, các mô hình nguồn mở này đạt hiệu suất cao nhờ dữ liệu chất lượng, mở ra khả năng tiếp cận AI rộng rãi hơn mà không ảnh hưởng đến quyền riêng tư.

https://venturebeat.com/ai/hugging-faces-smollm-models-bring-powerful-ai-to-your-phone-no-cloud-required/

Không có file đính kèm.

Nguồn tham khảo

158

AI mở-nguồn mở AI nghiên cứu 2024-07-15 07:04:07

STORM - công cụ AI nguồn mở từ Đại học Stanford tự động tạo báo cáo dài, có trích dẫn đầy đủ

• STORM là công cụ AI nguồn mở do Đại học Stanford phát triển, nhằm chuyển đổi các chủ đề thành các bài viết toàn diện và dài.

• Công cụ này tự động hóa quá trình tổng hợp kiến thức, giúp tạo ra các báo cáo dài và có trích dẫn đầy đủ một cách dễ dàng hơn.

• STORM hoạt động qua 2 giai đoạn chính: giai đoạn chuẩn bị viết và giai đoạn viết, tận dụng nghiên cứu trên internet và phác thảo có cấu trúc để tạo ra nội dung chi tiết.

• Trong giai đoạn chuẩn bị viết, STORM tiến hành nghiên cứu mở rộng trên internet về chủ đề được cung cấp, thu thập thông tin và tài liệu tham khảo liên quan. Sau đó, nó tổ chức dữ liệu này thành một dàn ý có cấu trúc.

• Ở giai đoạn viết, STORM sử dụng dàn ý đã tạo để viết một bài báo đầy đủ, kèm theo trích dẫn và tài liệu tham khảo chính xác.

• Một trong những ưu điểm chính của STORM là khả năng tự động hóa quá trình nghiên cứu, giúp tiết kiệm thời gian và công sức đáng kể cho người dùng.

• STORM có thể truy cập thông qua bản demo trên đám mây hoặc cài đặt cục bộ. Việc cài đặt cục bộ yêu cầu một số điều kiện tiên quyết như Git, Pip, Python và Conda.

• Công cụ này hỗ trợ nhiều mô hình truy xuất khác nhau và cho phép người dùng tùy chỉnh mô hình ngôn ngữ theo nhu cầu cụ thể.

• STORM có thể được sử dụng để tạo ra các bài viết về nhiều chủ đề khác nhau như bền vững, trí tuệ nhân tạo, chăm sóc sức khỏe, v.v.

• Đầu ra từ STORM bao gồm các bài viết toàn diện với các chủ đề phụ được xác định rõ ràng và trích dẫn đầy đủ. Các bài viết này có thể tải xuống và chia sẻ.

• Công cụ này hữu ích cho nhiều đối tượng khác nhau như nhà nghiên cứu, sinh viên, nhà báo hoặc người sáng tạo nội dung.

• STORM đang đóng vai trò quan trọng trong lĩnh vực tạo nội dung có sự hỗ trợ của AI, giúp người dùng tạo ra các bài viết toàn diện và được nghiên cứu kỹ lưỡng một cách dễ dàng.

📌 STORM là công cụ AI nguồn mở từ Stanford tự động tạo báo cáo dài có trích dẫn. Hoạt động qua 2 giai đoạn: chuẩn bị viết và viết, tự động hóa nghiên cứu và tạo nội dung. Hữu ích cho nhiều đối tượng, tiết kiệm thời gian và đảm bảo chất lượng bài viết.

https://www.geeky-gadgets.com/storm-ai-assistant-stanford-university/

Không có file đính kèm.

Nguồn tham khảo

183

AI mở-nguồn mở 2024-07-15 07:01:10

10 mô hình LLM mã nguồn mở không kiểm duyệt từ 7B đến 176B có thể chạy trên laptop

• Bài viết giới thiệu 10 mô hình ngôn ngữ lớn (LLM) không kiểm duyệt có thể chạy trên laptop thông thường. Đây là các mô hình mã nguồn mở, không bị giới hạn bởi các quy tắc đạo đức như ChatGPT.

• Vicuna-13B: Dựa trên LLaMA của Meta, được tinh chỉnh bằng dữ liệu từ ShareGPT. Có hiệu suất tương đương 90% so với ChatGPT và GPT-4 trong một số tác vụ.

• Alpaca-7B: Cũng dựa trên LLaMA, được huấn luyện bằng dữ liệu từ text-davinci-003 của OpenAI. Có khả năng tạo văn bản, dịch thuật và trả lời câu hỏi.

• GPT4All: Mô hình 7B tham số, được huấn luyện trên bộ dữ liệu đa dạng. Có thể chạy trên CPU và chỉ cần 4GB RAM.

• Dolly: Phiên bản 12B tham số, được huấn luyện trên bộ dữ liệu Databricks. Có khả năng tạo văn bản, dịch thuật và trả lời câu hỏi.

• Pythia: Bộ mô hình với nhiều kích thước từ 70M đến 12B tham số. Được huấn luyện trên bộ dữ liệu The Pile.

• RWKV: Mô hình RNN với hiệu suất tương đương Transformer. Có nhiều phiên bản từ 100M đến 14B tham số.

• Cerebras-GPT: Bộ mô hình với nhiều kích thước từ 111M đến 13B tham số. Được huấn luyện trên bộ dữ liệu The Pile.

• Open Assistant: Mô hình mã nguồn mở được phát triển bởi cộng đồng, với mục tiêu tạo ra trợ lý AI miễn phí cho mọi người.

• Falcon: Bộ mô hình được phát triển bởi Technology Innovation Institute, với các phiên bản 7B và 40B tham số.

• Bloom: Mô hình đa ngôn ngữ 176B tham số, hỗ trợ 46 ngôn ngữ tự nhiên và 13 ngôn ngữ lập trình.

• Các mô hình này đều có thể chạy trên laptop thông thường với GPU, một số thậm chí chỉ cần CPU. Chúng mang lại khả năng tiếp cận AI tiên tiến cho nhiều người dùng hơn.

• Tuy nhiên, việc sử dụng các mô hình không kiểm duyệt cũng đặt ra những thách thức về đạo đức và an toàn. Người dùng cần cân nhắc kỹ lưỡng khi sử dụng chúng.

📌 10 mô hình LLM mã nguồn mở không kiểm duyệt có thể chạy trên laptop thông thường, với kích thước từ 7B đến 176B tham số. Vicuna-13B và Alpaca-7B nổi bật với hiệu suất cao, trong khi GPT4All chỉ cần 4GB RAM để chạy. Các mô hình này mở ra cơ hội tiếp cận AI tiên tiến cho nhiều người dùng hơn.

Citations:
[1] https://analyticsindiamag.com/top-10-uncensored-llms-you-can-run-on-a-laptop/

Không có file đính kèm.

Nguồn tham khảo

234

AI sinh-y-duoc AI mở-nguồn mở 2024-07-12 00:12:07

Bioptimus, startup Pháp, ra mắt mô hình AI H-optimus-0 hỗ trợ chẩn đoán bệnh

• Startup Pháp Bioptimus vừa ra mắt mô hình AI có tên H-optimus-0, được đào tạo trên hàng trăm triệu hình ảnh để hỗ trợ nghiên cứu và chẩn đoán bệnh.

• H-optimus-0 có khả năng thực hiện các tác vụ phức tạp như nhận diện tế bào ung thư và phát hiện bất thường di truyền trong khối u.

• Bioptimus mô tả đây là mô hình lớn nhất trong lĩnh vực bệnh lý học được phát hành dưới dạng nguồn mở và dễ tiếp cận rộng rãi.

• Startup này là một trong số nhiều công ty đang cố gắng tận dụng AI cho các bước đột phá y học. Gần đây, DeepMind của Google đã phát hành phiên bản mới của AlphaFold - hệ thống AI dự đoán cấu trúc protein. K Health, một startup Mỹ phát triển chatbot tương tác với bệnh nhân trước khi gặp bác sĩ, đã huy động được 50 triệu USD với định giá khoảng 900 triệu USD.

• Giám đốc công nghệ của Bioptimus, Rodolphe Jenatton, cho biết công ty chọn mô hình nguồn mở để tạo ra tính minh bạch và thúc đẩy tiến bộ trong lĩnh vực này.

• Bioptimus hy vọng các phát triển tiếp theo sẽ cho phép mô hình hoạt động ở các cấp độ khác nhau của sinh học con người. Hiện tại, mô hình chỉ tập trung vào mô.

• Tuy nhiên, vẫn còn nhiều lo ngại về việc sử dụng AI trong chẩn đoán y tế. Một cuộc khảo sát năm 2023 của Pew Research Center cho thấy 60% bệnh nhân cảm thấy không thoải mái khi bác sĩ dựa vào AI để chăm sóc sức khỏe cho họ.

• Các chuyên gia gần đây kêu gọi Dịch vụ Y tế Quốc gia Anh (NHS) tập trung vào chăm sóc ung thư cơ bản thay vì các "viên đạn thần kỳ" AI.

• Một nghiên cứu năm 2021 trên Nature Medicine phát hiện các thuật toán AI áp dụng cho X-quang ngực chẩn đoán thiếu cho phụ nữ, bệnh nhân da đen và gốc Hispanic cũng như những người sử dụng Medicaid.

• Bioptimus được thành lập vào tháng 2 với sự hỗ trợ và đầu tư của công ty công nghệ sinh học Pháp Owkin Inc. Startup này đã nhận được 35 triệu USD vốn hạt giống từ các nhà đầu tư bao gồm ngân hàng đầu tư nhà nước Bpifrance và tỷ phú viễn thông Xavier Niel.

📌 Startup Pháp Bioptimus ra mắt mô hình AI nguồn mở H-optimus-0 để hỗ trợ chẩn đoán bệnh, được đào tạo trên hàng trăm triệu hình ảnh. Mặc dù có tiềm năng, vẫn còn nhiều lo ngại về việc sử dụng AI trong y tế, với 60% bệnh nhân cảm thấy không thoải mái và các nghiên cứu chỉ ra sự thiên vị trong chẩn đoán.

https://www.bloomberg.com/news/articles/2024-07-10/french-startup-bioptimus-releases-ai-model-for-disease-diagnosis

Không có file đính kèm.

Nguồn tham khảo

139

AI mở-nguồn mở AI kiến thức-khóa học 2024-07-10 11:17:16

OSI đề xuất định nghĩa AI nguồn mở: thách thức và tranh cãi trong việc áp dụng nguyên tắc mã nguồn mở cho AI

• Tổ chức Sáng kiến Nguồn mở (OSI) đang nỗ lực xây dựng một định nghĩa chính thức cho "AI nguồn mở", dưới sự dẫn dắt của giám đốc điều hành Stefano Maffulli.

• Định nghĩa AI Nguồn mở hiện đang ở phiên bản 0.0.8, bao gồm 3 phần chính: phần mở đầu, định nghĩa chính và danh sách kiểm tra các thành phần cần thiết.

• Theo dự thảo hiện tại, một hệ thống AI nguồn mở cần đảm bảo quyền tự do sử dụng cho mọi mục đích, cho phép nghiên cứu cách hệ thống hoạt động, và cho phép sửa đổi/chia sẻ hệ thống.

• Một trong những thách thức lớn nhất là vấn đề dữ liệu - làm thế nào để xác định một hệ thống AI là "nguồn mở" nếu không công bố bộ dữ liệu huấn luyện?

• OSI cho rằng quan trọng hơn là biết nguồn gốc dữ liệu và cách xử lý dữ liệu, thay vì có toàn bộ bộ dữ liệu.

• Có sự khác biệt cơ bản giữa mã nguồn phần mềm và trọng số mạng nơ-ron (NNW) trong AI. NNW không thể đọc được và gỡ lỗi như mã nguồn.

• Việc tái tạo chính xác một mô hình AI từ cùng bộ dữ liệu là rất khó khăn do có các yếu tố ngẫu nhiên trong quá trình huấn luyện.

• OSI đề xuất một hệ thống AI nguồn mở cần dễ dàng tái tạo với hướng dẫn rõ ràng.

• Khung phân loại mô hình mở (MOF) được đề xuất để đánh giá mức độ mở và đầy đủ của các mô hình máy học.

• Meta gặp tranh cãi khi gọi mô hình Llama của họ là "nguồn mở", trong khi có các hạn chế đáng kể về cách sử dụng.

• OSI đang tìm cách đa dạng hóa nguồn tài trợ, nhận được khoản tài trợ 250.000 USD từ Quỹ Sloan để hỗ trợ quá trình xây dựng định nghĩa.

• Định nghĩa "ổn định" dự kiến sẽ được thông qua tại hội nghị All Things Open vào cuối tháng 10/2024.

📌 OSI đang nỗ lực xây dựng định nghĩa AI nguồn mở, đối mặt với nhiều thách thức do sự khác biệt giữa AI và phần mềm truyền thống. Định nghĩa dự thảo 0.0.8 tập trung vào quyền tự do sử dụng, nghiên cứu và sửa đổi, với danh sách kiểm tra các thành phần cần thiết. Dự kiến thông qua vào 10/2024.

https://techcrunch.com/2024/06/22/what-does-open-source-ai-mean-anyway/

Không có file đính kèm.

Nguồn tham khảo

155

AI mở-nguồn mở 2024-07-10 09:12:39

Microsoft ra mắt GraphRAG: vượt trội hơn RAG truyền thống trong khám phá dữ liệu

- GraphRAG là một phương pháp tiếp cận mới dựa trên đồ thị cho kỹ thuật Retrieval-Augmented Generation (RAG), được phát triển và công bố bởi Microsoft.

- Nó sử dụng mô hình ngôn ngữ lớn (LLM) để tự động trích xuất đồ thị tri thức từ bất kỳ tập hợp tài liệu văn bản nào.

- GraphRAG vượt trội hơn so với phương pháp RAG truyền thống trong việc khám phá và truy xuất dữ liệu phức tạp.

- Nó có khả năng hiểu bối cảnh tổng thể tốt hơn, kết nối các ý tưởng từ nhiều nguồn khác nhau và trả lời các câu hỏi phức tạp đòi hỏi suy luận sâu.

- GraphRAG có thể xử lý lượng lớn thông tin mà không bị nhầm lẫn và giải thích nguồn gốc câu trả lời của nó.

- Microsoft đã công bố mã nguồn mở của GraphRAG trên GitHub, cho phép các nhà phát triển bắt đầu sử dụng nó trong các dự án của họ.

- Nó có thể được sử dụng với cả các mô hình độc quyền như GPT-4 và các mô hình mã nguồn mở như Llama.

- GraphRAG hứa hẹn mang lại những cải tiến đáng kể trong việc truy vấn và tóm tắt tập trung vào các tập dữ liệu phức tạp.

📌 GraphRAG đại diện cho một bước tiến quan trọng trong công nghệ RAG, cung cấp khả năng hiểu và truy xuất dữ liệu phức tạp tốt hơn đáng kể. Việc Microsoft công bố mã nguồn mở có thể thúc đẩy việc áp dụng và phát triển công nghệ này trong cộng đồng AI rộng lớn hơn.

https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/

Không có file đính kèm.

Nguồn tham khảo

127

AI nhỏ AI mở-nguồn mở 2024-07-08 07:27:12

InternLM2.5-7B-Chat: LLM nguồn mở suy luận, xử lý ngữ cảnh dài và sử dụng công cụ vượt trội.

• InternLM vừa công bố mô hình ngôn ngữ lớn nguồn mở mới nhất InternLM2.5-7B-Chat, có sẵn ở định dạng GGUF và tương thích với llama.cpp.

• Mô hình có thể được sử dụng cục bộ và trên đám mây trên nhiều nền tảng phần cứng khác nhau. Định dạng GGUF cung cấp các phiên bản lượng tử hóa half-precision và low-bit, bao gồm q5_0, q5_k_m, q6_k và q8_0.

• InternLM2.5 dựa trên phiên bản tiền nhiệm, cung cấp mô hình cơ sở 7 tỷ tham số và mô hình chat được điều chỉnh cho các tình huống thực tế.

• Mô hình này có khả năng suy luận tiên tiến, đặc biệt là suy luận toán học, vượt trội so với các đối thủ như Llama3 và Gemma2-9B.

• InternLM2.5-7B-Chat có cửa sổ ngữ cảnh ấn tượng 1M, thể hiện hiệu suất gần như hoàn hảo trong các tác vụ ngữ cảnh dài như được đánh giá bởi LongBench.

• Khả năng xử lý ngữ cảnh dài giúp mô hình đặc biệt hiệu quả trong việc truy xuất thông tin từ các tài liệu dài. Khả năng này được tăng cường khi kết hợp với LMDeploy, một bộ công cụ để nén, triển khai và phục vụ các mô hình ngôn ngữ lớn.

• Phiên bản InternLM2.5-7B-Chat-1M được thiết kế cho suy luận ngữ cảnh dài 1M, nhưng yêu cầu tài nguyên tính toán đáng kể như 4 GPU A100-80G để hoạt động hiệu quả.

• Đánh giá hiệu suất sử dụng công cụ OpenCompass cho thấy khả năng vượt trội của mô hình trong nhiều lĩnh vực: năng lực chuyên ngành, ngôn ngữ, kiến thức, suy luận và hiểu biết.

• Trong các điểm chuẩn như MMLU, CMMLU, BBH, MATH, GSM8K và GPQA, InternLM2.5-7B-Chat liên tục mang lại hiệu suất vượt trội so với các đối thủ cùng cấp. Ví dụ, điểm chuẩn MMLU đạt 72,8, vượt qua các mô hình như Llama-3-8B-Instruct và Gemma2-9B-IT.

• InternLM2.5-7B-Chat cũng xuất sắc trong việc sử dụng công cụ, hỗ trợ thu thập thông tin từ hơn 100 trang web. Phiên bản sắp tới của Lagent sẽ tăng cường chức năng này, cải thiện khả năng tuân theo hướng dẫn, lựa chọn công cụ và phản ánh của mô hình.

• Bản phát hành của mô hình bao gồm hướng dẫn cài đặt toàn diện, hướng dẫn tải xuống mô hình và các ví dụ về suy luận và triển khai dịch vụ mô hình.

• Người dùng có thể thực hiện suy luận ngoại tuyến theo lô với mô hình lượng tử hóa bằng lmdeploy, một framework hỗ trợ lượng tử hóa INT4 weight-only và triển khai (W4A16). Thiết lập này cung cấp suy luận nhanh hơn tới 2,4 lần so với FP16 trên các GPU NVIDIA tương thích.

• Kiến trúc của InternLM2.5 giữ lại các tính năng mạnh mẽ của phiên bản tiền nhiệm đồng thời kết hợp các đổi mới kỹ thuật mới. Những cải tiến này, được thúc đẩy bởi một kho dữ liệu tổng hợp lớn và quy trình đào tạo lặp đi lặp lại, dẫn đến một mô hình có hiệu suất suy luận được cải thiện - tăng 20% so với InternLM2.

📌 InternLM2.5-7B-Chat là mô hình ngôn ngữ lớn nguồn mở tiên tiến với khả năng suy luận vượt trội, xử lý ngữ cảnh dài 1M và sử dụng công cụ hiệu quả. Mô hình đạt điểm MMLU 72,8, vượt qua các đối thủ cùng cấp và hứa hẹn ứng dụng rộng rãi trong nghiên cứu và thực tế.

https://www.marktechpost.com/2024/07/07/internlm2-5-7b-chat-open-sourcing-large-language-models-with-unmatched-reasoning-long-context-handling-and-enhanced-tool-use/

Không có file đính kèm.

Nguồn tham khảo

146

AI data AI mở-nguồn mở 2024-07-04 23:05:05

IBM công bố toàn bộ bộ dữ liệu 6,48 TB dùng để huấn luyện mô hình ngôn ngữ lớn Granite 13B

• IBM vừa công bố toàn bộ bộ dữ liệu 6,48 TB được sử dụng để huấn luyện mô hình ngôn ngữ lớn Granite 13B.

• Armand Ruiz, một chuyên gia của IBM, đã tiết lộ thông tin này, mở ra cơ hội mới cho cộng đồng nghiên cứu AI và phát triển ứng dụng.

• Granite 13B là một mô hình ngôn ngữ lớn được IBM phát triển đặc biệt cho các ứng dụng doanh nghiệp.

• Vào tháng 5/2024, IBM đã công bố mã nguồn mở của Granite 13B, cho phép các nhà phát triển và doanh nghiệp tự do sử dụng và tùy chỉnh mô hình này.

• Bộ dữ liệu huấn luyện 6,48 TB bao gồm nhiều loại dữ liệu đa dạng như văn bản, mã nguồn, tài liệu kỹ thuật và dữ liệu doanh nghiệp.

• Việc công bố bộ dữ liệu này giúp tăng tính minh bạch trong quá trình phát triển AI, đồng thời cho phép các nhà nghiên cứu hiểu rõ hơn về cách Granite 13B được huấn luyện.

• IBM khẳng định rằng bộ dữ liệu đã được xử lý để loại bỏ thông tin nhạy cảm và tuân thủ các quy định về bảo mật và quyền riêng tư.

• Granite 13B được thiết kế để xử lý các tác vụ phức tạp trong môi trường doanh nghiệp như phân tích dữ liệu, tự động hóa quy trình và hỗ trợ ra quyết định.

• Mô hình này có khả năng hiểu và tạo ra văn bản chất lượng cao, đồng thời tích hợp tốt với các hệ thống và ứng dụng doanh nghiệp hiện có.

• Việc công bố bộ dữ liệu huấn luyện có thể thúc đẩy sự phát triển của các mô hình AI tùy chỉnh cho các ngành công nghiệp cụ thể.

• Các chuyên gia trong ngành nhận định rằng động thái này của IBM sẽ góp phần thúc đẩy sự cạnh tranh và đổi mới trong lĩnh vực AI doanh nghiệp.

• Bộ dữ liệu được chia sẻ thông qua nền tảng Hugging Face, một kho lưu trữ phổ biến cho các mô hình và dữ liệu AI.

• IBM cũng cung cấp tài liệu hướng dẫn chi tiết về cách sử dụng bộ dữ liệu và tái tạo quá trình huấn luyện Granite 13B.

• Việc này mở ra cơ hội cho các doanh nghiệp vừa và nhỏ tiếp cận công nghệ AI tiên tiến mà không cần đầu tư lớn vào nghiên cứu và phát triển.

📌 IBM công bố bộ dữ liệu 6,48 TB dùng để huấn luyện Granite 13B, mô hình ngôn ngữ lớn nguồn mở cho doanh nghiệp. Động thái này thúc đẩy minh bạch trong AI, mở ra cơ hội nghiên cứu và phát triển ứng dụng AI tùy chỉnh cho nhiều ngành công nghiệp.

https://analyticsindiamag.com/ibm-reveals-its-entire-6-48-tb-llm-training-dataset/

Không có file đính kèm.

Nguồn tham khảo

161

AI mở-nguồn mở 2024-07-04 22:39:40

Meta phát hành mô hình dự đoán đa token mới, hứa hẹn cách mạng hóa hiệu quả và khả năng của AI ngôn ngữ lớn

• Meta vừa phát hành các mô hình được đào tạo trước sử dụng phương pháp dự đoán đa token mới, có thể thay đổi cách phát triển và triển khai các mô hình ngôn ngữ lớn (LLM).

• Kỹ thuật mới này, được mô tả trong bài báo nghiên cứu của Meta vào tháng 4, khác với phương pháp truyền thống là chỉ dự đoán từ tiếp theo trong chuỗi. Thay vào đó, mô hình của Meta được giao nhiệm vụ dự đoán nhiều từ trong tương lai cùng lúc.

• Phương pháp mới hứa hẹn nâng cao hiệu suất và giảm đáng kể thời gian đào tạo cho các mô hình AI.

• Đây có thể là giải pháp cho vấn đề tiêu thụ năng lượng tính toán ngày càng tăng của các mô hình AI lớn, giúp AI tiên tiến trở nên dễ tiếp cận và bền vững hơn.

• Bằng cách dự đoán nhiều token cùng lúc, các mô hình này có thể phát triển hiểu biết tinh tế hơn về cấu trúc và ngữ cảnh ngôn ngữ.

• Meta phát hành các mô hình này dưới giấy phép nghiên cứu phi thương mại trên nền tảng Hugging Face, phù hợp với cam kết khoa học mở của công ty.

• Bước đi này cũng là động thái chiến lược trong cuộc đua AI ngày càng cạnh tranh, nơi sự cởi mở có thể dẫn đến đổi mới nhanh hơn và thu hút nhân tài.

• Phiên bản đầu tiên tập trung vào nhiệm vụ hoàn thành mã, phản ánh thị trường đang phát triển cho các công cụ lập trình hỗ trợ AI.

• Tuy nhiên, việc phát hành này cũng gây tranh cãi. Các nhà phê bình cho rằng các mô hình AI hiệu quả hơn có thể làm trầm trọng thêm những lo ngại hiện có về thông tin sai lệch và mối đe dọa mạng do AI tạo ra.

• Meta đã cố gắng giải quyết những vấn đề này bằng cách nhấn mạnh tính chất chỉ dành cho nghiên cứu của giấy phép, nhưng vẫn còn những câu hỏi về việc thực thi hiệu quả các hạn chế như vậy.

• Các mô hình dự đoán đa token là một phần trong bộ sưu tập lớn hơn các thành quả nghiên cứu AI được Meta phát hành, bao gồm cả những tiến bộ trong tạo văn bản từ hình ảnh và phát hiện giọng nói do AI tạo ra.

• Cộng đồng AI đang phải đối mặt với những tác động của thông báo này. Liệu dự đoán đa token có trở thành tiêu chuẩn mới trong phát triển LLM? Nó có thể đáp ứng lời hứa về hiệu quả mà không ảnh hưởng đến chất lượng?

• Các nhà nghiên cứu tuyên bố rằng phương pháp của họ cải thiện khả năng và hiệu quả đào tạo mô hình đồng thời cho phép tốc độ nhanh hơn.

📌 Meta phát hành mô hình dự đoán đa token mới, hứa hẹn cách mạng hóa hiệu quả và khả năng của AI ngôn ngữ lớn. Phương pháp này có thể giảm thời gian đào tạo, nâng cao hiệu suất và phát triển hiểu biết ngôn ngữ tinh tế hơn. Tuy nhiên, vẫn còn những lo ngại về tác động tiềm tàng và việc sử dụng sai mục đích.

https://venturebeat.com/ai/meta-drops-ai-bombshell-multi-token-prediction-models-now-open-for-research/

Không có file đính kèm.

Nguồn tham khảo

233

AI models AI mở-nguồn mở 2024-07-02 22:41:25

Meta chuẩn bị ra mắt mô hình Llama 3 400B - đối thủ cạnh tranh mạnh mẽ của ChatGPT-4

• Meta đã phát hành Llama 3 vào tháng 4/2024, sử dụng tập dữ liệu lớn hơn ít nhất 7 lần so với Llama 2. Ban đầu có sẵn ở kích thước 8B và 70B tham số.

• Thông tin rò rỉ cho thấy Meta sắp ra mắt phiên bản Llama 3 mạnh mẽ nhất, được đào tạo trên hơn 400 tỷ tham số.

• Trong thử nghiệm ban đầu, Llama 3 400B đạt điểm 86,1 trên thang đo MMLU, ngang bằng với hiệu suất của GPT-4 nhưng chỉ với chưa đến một nửa số lượng tham số.

• Việc đạt được hiệu suất tương đương với ít tham số hơn cho thấy Llama 3 400B có thể hiệu quả hơn nhiều so với ChatGPT 4 về tài nguyên tính toán, tiêu thụ năng lượng và chi phí.

• Llama 3 được phát hành dưới giấy phép mở cho nghiên cứu và sử dụng thương mại. Chưa rõ liệu phiên bản 400B có được phát hành dưới cùng giấy phép mở hay không.

• Nếu 400B được phát hành dưới dạng mô hình mở, nó sẽ mang lại khả năng ngôn ngữ tiên tiến cho các nhà nghiên cứu và nhà phát triển miễn phí, thúc đẩy đổi mới và cho phép nhiều ứng dụng mới của công nghệ.

• Meta AI đã ám chỉ về việc phát hành mô hình 400B từ thông cáo báo chí ban đầu về Llama 3 vào ngày 18/4, nói rằng "các mô hình lớn nhất của chúng tôi có hơn 400 tỷ tham số".

• Người dùng WhatsApp Beta trên Android 2.24.14.7 đã phát hiện tùy chọn mới để thử nghiệm mô hình Llama 3-405B cho Meta AI, mặc dù có giới hạn đáng kể về khối lượng sử dụng.

• Mặc dù chưa có ngày phát hành chính thức, nhưng có thể dự đoán bản phát hành đầy đủ sẽ diễn ra vào cuối tháng 7 hoặc tháng 8 năm 2024.

📌 Meta sắp ra mắt Llama 3 400B, mô hình AI nguồn mở cạnh tranh trực tiếp với ChatGPT-4. Với hiệu suất tương đương nhưng ít tham số hơn, Llama 3 400B hứa hẹn mang lại hiệu quả cao hơn về tài nguyên và chi phí, đồng thời thúc đẩy đổi mới trong lĩnh vực AI ngôn ngữ.

https://www.tomsguide.com/ai/meta-is-about-to-launch-its-biggest-llama-model-yet-heres-why-its-a-big-deal

Không có file đính kèm.

Nguồn tham khảo

181

AI mở-nguồn mở AI nhỏ 2024-06-28 21:26:03

Google tung ra Gemma 2: mô hình AI siêu nhỏ gọn đánh bại Llama3 70B và Qwen 72B

• Google vừa công bố hai mô hình mới trong dòng Gemma 2: phiên bản 27B và 9B.

• Gemma 2 27B có 27 tỷ tham số, được thiết kế để xử lý các tác vụ phức tạp hơn với độ chính xác và hiểu biết ngôn ngữ sâu sắc hơn.

• Gemma 2 9B có 9 tỷ tham số, là lựa chọn nhẹ hơn nhưng vẫn mang lại hiệu suất cao, phù hợp cho các ứng dụng cần hiệu quả tính toán và tốc độ.

• Gemma 2 vượt trội hơn Llama3 70B, Qwen 72B và Command R+ trong lĩnh vực LYMSYS Chat. Mô hình 9B hiện là mô hình hoạt động tốt nhất dưới 15B tham số.

• Các mô hình Gemma 2 nhỏ hơn khoảng 2,5 lần so với Llama 3 và chỉ được huấn luyện trên 2/3 số lượng token.

• Mô hình 27B được huấn luyện trên 13 nghìn tỷ token, trong khi mô hình 9B được huấn luyện trên 8 nghìn tỷ token.

• Cả hai mô hình đều có độ dài ngữ cảnh 8192 và sử dụng Rotary Position Embeddings (RoPE) để xử lý tốt hơn các chuỗi dài.

• Gemma 2 áp dụng kỹ thuật chưng cất kiến thức để huấn luyện các mô hình nhỏ hơn 9B và 2B với sự hỗ trợ của mô hình giáo viên lớn hơn.

• Các mô hình kết hợp các lớp chú ý cục bộ và toàn cục, giúp tăng cường độ ổn định suy luận cho ngữ cảnh dài và giảm sử dụng bộ nhớ.

• Gemma 2 sử dụng phương pháp Soft Attention Capping để duy trì quá trình huấn luyện và tinh chỉnh ổn định.

• Các kỹ thuật như Exponential Moving Average (EMA), Spherical Linear Interpolation (SLERP) và Linear Interpolation with Truncated Inference (LITI) được áp dụng ở các giai đoạn huấn luyện khác nhau để tăng hiệu suất.

• Group Query Attention được triển khai với hai nhóm để tăng tốc độ suy luận.

• Các mô hình Gemma 2 có thể ứng dụng trong nhiều lĩnh vực như tự động hóa dịch vụ khách hàng, tạo nội dung, dịch thuật và công cụ giáo dục.

• Sự ra mắt của dòng Gemma 2 đánh dấu bước tiến quan trọng trong công nghệ AI, thể hiện cam kết của Google trong việc phát triển các công cụ AI mạnh mẽ nhưng hiệu quả.

📌 Google ra mắt Gemma 2 với hai phiên bản 27B và 9B, vượt trội hơn đối thủ cạnh tranh như Llama3 70B và Qwen 72B. Mô hình 9B là mô hình hoạt động tốt nhất dưới 15B tham số, được huấn luyện trên 8 nghìn tỷ token. Gemma 2 áp dụng nhiều kỹ thuật tiên tiến, hứa hẹn mang lại những đột phá trong xử lý ngôn ngữ tự nhiên.

https://www.marktechpost.com/2024/06/27/google-releases-gemma-2-series-models-advanced-llm-models-in-9b-and-27b-sizes-trained-on-13t-tokens/

Không có file đính kèm.

Nguồn tham khảo

185

AI tools AI mở-nguồn mở 2024-06-28 16:44:30

MaxKB: hệ thống trả lời câu hỏi tiên tiến dựa trên các LLM để cách mạng hóa việc quản lý kiến thức trong doanh nghiệp

• MaxKB là một hệ thống trả lời câu hỏi tiên tiến dựa trên các mô hình ngôn ngữ lớn (LLMs), được thiết kế để cách mạng hóa việc quản lý kiến thức trong doanh nghiệp.

• Hệ thống này giải quyết các thách thức mà nhiều tổ chức gặp phải trong việc quản lý và truy xuất thông tin từ kho dữ liệu của họ.

• Các giải pháp hiện có thường đòi hỏi thiết lập phức tạp và chuyên môn về lập trình, gây khó khăn cho việc tích hợp vào hệ thống hiện có.

• MaxKB đơn giản hóa quá trình tạo và triển khai cơ sở kiến thức toàn diện, không yêu cầu kiến thức kỹ thuật chuyên sâu.

• Hệ thống hỗ trợ tải lên tài liệu trực tiếp, tự động thu thập tài liệu trực tuyến và có khả năng xử lý văn bản thông minh.

• MaxKB cho phép tách và vector hóa văn bản tự động, nâng cao khả năng truy cập và tìm kiếm dữ liệu.

• Hệ thống sử dụng công nghệ tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) để tinh chỉnh kết quả tìm kiếm, cung cấp câu trả lời chính xác cho các truy vấn.

• MaxKB tích hợp liền mạch với nhiều mô hình lớn khác nhau, đảm bảo tính linh hoạt và khả năng mở rộng cho các nhu cầu kinh doanh đa dạng.

• Giao diện trực quan của MaxKB làm cho nó dễ tiếp cận với tất cả người dùng, bất kể trình độ kỹ thuật.

• Hệ thống có thể được triển khai trong môi trường cục bộ hoặc tích hợp vào các hệ thống của bên thứ ba.

• MaxKB nổi bật về khả năng tiếp cận và hiệu suất, giúp các tổ chức khai thác dữ liệu của họ một cách hiệu quả.

• Hệ thống này giải quyết nhu cầu về một giải pháp thân thiện với người dùng và hiệu quả trong việc quản lý kiến thức doanh nghiệp.

• MaxKB không chỉ mạnh mẽ mà còn hiệu quả và đáng tin cậy, với khả năng ấn tượng trong việc xử lý và truy xuất thông tin.

📌 MaxKB là hệ thống trả lời câu hỏi dựa trên LLMs, cách mạng hóa quản lý kiến thức doanh nghiệp. Với khả năng tải tài liệu trực tiếp, thu thập tự động và xử lý thông minh, MaxKB đơn giản hóa việc truy xuất thông tin mà không cần chuyên môn kỹ thuật cao.

https://www.marktechpost.com/2024/06/27/maxkb-knowledge-base-question-answering-system-based-on-large-language-models-llms/

Không có file đính kèm.

Nguồn tham khảo

143

AI mở-nguồn mở 2024-06-28 16:15:28

Google mở rộng truy cập công khai cho Gemini 1.5 Flash và Pro với khả năng xử lý 2 triệu token

• Google Cloud công bố mở rộng truy cập công khai cho hai phiên bản mô hình AI hàng đầu: Gemini 1.5 Flash và Gemini 1.5 Pro.

• Gemini 1.5 Flash là mô hình đa phương thức nhỏ với cửa sổ ngữ cảnh 1 triệu token, phù hợp cho các tác vụ tần suất cao và hẹp.

• Gemini 1.5 Pro là phiên bản mạnh mẽ nhất của mô hình ngôn ngữ lớn của Google, có cửa sổ ngữ cảnh 2 triệu token - lớn nhất trong các mô hình AI nổi tiếng hiện nay.

• Thomas Kurian, CEO Google Cloud, cho biết công ty đang thấy "động lực đáng kinh ngạc" với nỗ lực AI tạo sinh, với nhiều tổ chức lớn như Accenture, Airbus, Anthropic, Box, Broadcom, Ford, Goldman Sachs, Samsung đang xây dựng trên nền tảng của họ.

• Gemini 1.5 Flash được cho là nhanh hơn 40% so với GPT-3.5 Turbo của OpenAI khi xử lý đầu vào 10.000 ký tự, với giá đầu vào thấp hơn 4 lần.

• Gemini 1.5 Pro có thể xử lý và cân nhắc lượng văn bản lớn hơn bao giờ hết trước khi tạo ra phản hồi, bao gồm 2 giờ video độ phân giải cao, gần cả ngày âm thanh, hơn 60.000 dòng mã và hơn 1,5 triệu từ.

• Google giới thiệu tính năng bộ nhớ đệm ngữ cảnh cho cả Gemini 1.5 Pro và Flash, giúp giảm chi phí đầu vào lên đến 75%.

• Tính năng thông lượng được cung cấp cho phép nhà phát triển dự trữ dung lượng suy luận, đảm bảo khả năng mở rộng và độ tin cậy cho khối lượng công việc sản xuất.

• Các tính năng mới nhằm cải thiện trải nghiệm nhà phát triển và giúp doanh nghiệp tạo ra các tác nhân và giải pháp AI "hấp dẫn".

• Google cam kết tiếp tục giới thiệu các khả năng mới cho cả mô hình và nền tảng Vertex với tốc độ nhanh chóng.

• Việc phát hành các biến thể Gemini nhằm thể hiện cách công việc AI của Google trao quyền cho doanh nghiệp phát triển các tác nhân và giải pháp AI "hấp dẫn".

📌 Google mở rộng truy cập Gemini 1.5 Flash và Pro với cửa sổ ngữ cảnh 2 triệu token, nhanh hơn 40% so với GPT-3.5 Turbo. Tính năng bộ nhớ đệm ngữ cảnh giảm chi phí 75%, thông lượng được cung cấp tăng độ tin cậy cho nhà phát triển.

https://venturebeat.com/ai/google-opens-up-gemini-1-5-flash-pro-with-2m-tokens-to-the-public/

Không có file đính kèm.

Nguồn tham khảo

208

AI pháp lý-quản trị-chủ quyền AI mở-nguồn mở 2024-06-27 22:31:31

Abu Dhabi giàu dầu mỏ đang nỗ lực trở thành quốc gia dẫn đầu về AI, bắt đầu bằng việc liên kết với Mỹ

• Abu Dhabi, thủ đô của Các Tiểu vương quốc Ả Rập Thống nhất (UAE), đang nỗ lực trở thành quốc gia dẫn đầu về trí tuệ nhân tạo (AI), bắt đầu bằng việc liên kết chặt chẽ với Mỹ.

• Microsoft đã đầu tư 1,5 tỷ USD vào G42, một tập đoàn AI có trụ sở tại Abu Dhabi, do một thành viên có ảnh hưởng của gia đình hoàng gia làm chủ tịch.

• Thỏa thuận này được cho là do chính quyền Biden muốn hạn chế ảnh hưởng của Bắc Kinh trong khu vực, trong bối cảnh Mỹ đang nỗ lực duy trì vị thế dẫn đầu so với Trung Quốc trong cuộc đua AI.

• Omar Al Olama, Bộ trưởng AI của UAE, cho biết UAE và Mỹ có cùng quan điểm về cách thúc đẩy các công nghệ này và sẽ có sự liên kết chặt chẽ hơn.

• UAE là một trong những nhà sản xuất nhiên liệu hóa thạch lớn nhất thế giới. Abu Dhabi coi việc phát triển AI là yếu tố then chốt để đa dạng hóa nền kinh tế, giảm phụ thuộc vào dầu mỏ.

• Theo báo cáo của PwC Middle East, AI có thể đóng góp 96 tỷ USD vào nền kinh tế UAE vào năm 2030, tương đương gần 14% GDP.

• UAE đặt mục tiêu trở thành quốc gia dẫn đầu toàn cầu về AI vào năm 2031. Chiến lược quốc gia bao gồm triển khai AI trong các lĩnh vực ưu tiên như năng lượng và hậu cần, phát triển hệ sinh thái và thu hút nhân tài.

• Tính đến tháng 9/2023, UAE có 120.000 người làm việc trong lĩnh vực AI hoặc các ngành liên quan, tăng từ 30.000 người hai năm trước đó.

• UAE đôi khi phải ưu tiên mối quan hệ với Mỹ hơn các đối thủ của Washington. G42 đã phải cắt đứt quan hệ với các nhà cung cấp phần cứng Trung Quốc, bao gồm cả Huawei, để ủng hộ các công ty Mỹ.

• Vào cuối năm 2023, Viện Đổi mới Công nghệ Abu Dhabi đã ra mắt mô hình ngôn ngữ lớn (LLM) có tên Falcon10B, vượt trội hơn các sản phẩm của Google và Meta theo một số tiêu chí.

• UAE cũng đã phát triển Jais, một mô hình AI tạo sinh được đào tạo bằng tiếng Ả Rập và tiếng Anh, nhằm mở đường cho các LLM trong các ngôn ngữ khác "chưa được đại diện trong AI chủ đạo".

• Falcon và Jais đều là nguồn mở, cho phép bất kỳ ai cũng có thể sử dụng hoặc thay đổi mã nguồn. Điều này giúp Abu Dhabi định vị mình như một đồng minh của các quốc gia đang phát triển không có đủ nguồn lực để xây dựng công cụ AI riêng.

• Olama kêu gọi một liên minh toàn cầu để quản lý sự phát triển và sử dụng công nghệ AI, nhằm giải quyết các mối lo ngại về rủi ro tiềm ẩn của AI.

📌 UAE đặt mục tiêu trở thành siêu cường AI vào năm 2031 thông qua chiến lược quốc gia và đầu tư lớn. Với 120.000 người làm việc trong lĩnh vực AI, dự kiến đóng góp 96 tỷ USD vào GDP năm 2030, UAE đang nhanh chóng trở thành trung tâm AI quan trọng toàn cầu.

https://www.cnn.com/2024/06/26/tech/uae-ai-minister-omar-al-olama-hnk-spc-intl/index.html

Không có file đính kèm.

Nguồn tham khảo

130

AI mở-nguồn mở 2024-06-27 22:22:39

Hugging Face ra mắt bảng xếp hạng mô hình ngôn ngữ mở, với các mô hình Trung Quốc dẫn đầu

• Hugging Face vừa ra mắt bảng xếp hạng mô hình ngôn ngữ mở (Open LLM Leaderboard), đánh giá hiệu suất của các mô hình ngôn ngữ lớn mã nguồn mở.

• Bảng xếp hạng này đánh giá các mô hình dựa trên nhiều tiêu chí như: ARC (câu hỏi đa lựa chọn), HellaSwag (suy luận thông thường), MMLU (kiến thức đa lĩnh vực), TruthfulQA (khả năng trả lời trung thực) và Winogrande (suy luận).

• Các mô hình Trung Quốc đang thống trị bảng xếp hạng, với ChatGLM2-6B của Tsinghua University đứng đầu, đạt điểm trung bình 55,3 trên tất cả các tiêu chí.

• Baichuan-13B-Base của Baichuan Intelligence đứng thứ hai với điểm trung bình 54,8, theo sau là BLOOM-7B1-mt của BigScience với 53,6 điểm.

• Mô hình ChatGLM2-6B đạt điểm cao nhất trong các bài kiểm tra ARC (62,6) và HellaSwag (78,5), trong khi Baichuan-13B-Base dẫn đầu về MMLU (54,8) và TruthfulQA (44,6).

• BLOOM-7B1-mt, một mô hình đa ngôn ngữ, đạt điểm cao nhất trong bài kiểm tra Winogrande (73,9).

• Bảng xếp hạng cũng bao gồm các mô hình nổi tiếng khác như Falcon, Pythia, OPT và FLAN-T5.

• Hugging Face khuyến khích cộng đồng đóng góp bằng cách thêm các mô hình mới vào bảng xếp hạng thông qua pull requests trên GitHub.

• Bảng xếp hạng này cung cấp cái nhìn tổng quan về hiệu suất của các mô hình ngôn ngữ mã nguồn mở, giúp các nhà nghiên cứu và nhà phát triển so sánh và lựa chọn mô hình phù hợp cho ứng dụng của họ.

• Sự thống trị của các mô hình Trung Quốc trong bảng xếp hạng cho thấy sự phát triển nhanh chóng của ngành AI tại quốc gia này.

• Bảng xếp hạng cũng nhấn mạnh tầm quan trọng của việc phát triển các mô hình ngôn ngữ mã nguồn mở, tạo cơ hội cho cộng đồng nghiên cứu AI tiếp cận và cải tiến các mô hình này.

• Hugging Face, nền tảng phổ biến cho việc chia sẻ và triển khai các mô hình máy học, đang đóng vai trò quan trọng trong việc thúc đẩy sự phát triển và đánh giá các mô hình ngôn ngữ mã nguồn mở.

📌 Hugging Face ra mắt bảng xếp hạng mô hình ngôn ngữ mở, với các mô hình Trung Quốc dẫn đầu. ChatGLM2-6B đứng đầu với 55,3 điểm trung bình, tiếp theo là Baichuan-13B-Base và BLOOM-7B1-mt. Bảng xếp hạng đánh giá mô hình dựa trên nhiều tiêu chí, thúc đẩy sự phát triển của AI nguồn mở.

https://analyticsindiamag.com/hugging-face-launches-open-llm-leaderboard-chinese-models-dominate/

Không có file đính kèm.

Nguồn tham khảo

118

AI nhỏ AI mở-nguồn mở 2024-06-22 09:21:37

Alibaba ra mắt mô hình gte-Qwen2-7b-instruct với 32k token đầu vào và hiệu suất vượt trội

• Các nhà nghiên cứu Alibaba vừa công bố mô hình nhúng văn bản mới có tên gte-Qwen2-7B-instruct, kế thừa mô hình gte-Qwen1.5-7B-instruct trước đó.

• Mô hình mới dựa trên Qwen2-7B thay vì Qwen1.5-7B, cho thấy những cải tiến của Qwen2-7B.

• Hiệu suất tăng đáng kể với điểm tổng thể cải thiện từ 67,34 lên 70,24, và chỉ số nDCG@10 cho Retrieval trên bảng xếp hạng MTEB tăng từ 57,91 lên 60,25.

• Mô hình có 7 tỷ tham số, khá lớn đối với các mô hình nhúng, và hỗ trợ độ dài chuỗi tối đa 32k token đầu vào.

• Được tích hợp với Sentence Transformers, giúp tương thích với các công cụ như LangChain, LlamaIndex, Haystack, v.v.

• Tính đến ngày 21/6/2024, gte-Qwen2-7B-instruct xếp hạng 2 trong cả đánh giá tiếng Anh và tiếng Trung trên Massive Text Embedding Benchmark (MTEB).

• Mô hình sử dụng cơ chế chú ý hai chiều để nâng cao khả năng hiểu ngữ cảnh.

• Áp dụng kỹ thuật Instruction Tuning chỉ ở phía truy vấn để tăng hiệu quả.

• Quá trình đào tạo toàn diện trên tập dữ liệu đa ngôn ngữ lớn từ nhiều lĩnh vực và tình huống khác nhau.

• Sử dụng cả dữ liệu giám sát yếu và có giám sát để hữu ích cho nhiều ngôn ngữ và nhiều tác vụ khác nhau.

• Dòng mô hình gte có hai loại: mô hình chỉ mã hóa dựa trên kiến trúc BERT và mô hình chỉ giải mã dựa trên kiến trúc LLM.

• Nhúng văn bản (Text embeddings - TEs) là biểu diễn vector thấp chiều của văn bản có kích thước khác nhau, quan trọng cho nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP).

• TEs thường được kiểm tra trên số lượng nhỏ bộ dữ liệu từ một tác vụ cụ thể, không thể hiện hiệu suất cho các tác vụ khác.

• Massive Text Embedding Benchmark (MTEB) được giới thiệu để giải quyết vấn đề này, bao gồm 8 tác vụ nhúng, 58 bộ dữ liệu và 112 ngôn ngữ.

📌 Alibaba công bố mô hình nhúng văn bản gte-Qwen2-7B-instruct mới dựa trên Qwen2-7B, cải thiện hiệu suất từ 67,34 lên 70,24 điểm trên MTEB. Mô hình 7 tỷ tham số này hỗ trợ 32k token đầu vào, tích hợp với nhiều công cụ NLP và xếp hạng 2 cho cả tiếng Anh và tiếng Trung.

https://www.marktechpost.com/2024/06/21/alibaba-ai-researchers-released-a-new-gte-qwen2-7b-instruct-embedding-model-based-on-the-qwen2-7b-model-with-better-performance/

Không có file đính kèm.

Nguồn tham khảo

154

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-06-21 00:11:39

Meta phát hành mô hình AI mã nguồn mở Chameleon xử lý hình ảnh và văn bản tương đương Gemini Pro và GPT-4V

- Meta công bố phát hành công khai họ mô hình AI mới có tên Chameleon, tương đương với các công cụ thương mại như Gemini Pro và GPT-4V.

- Chameleon có phiên bản 7 tỷ và 34 tỷ tham số, có khả năng hiểu và tạo ra hình ảnh và văn bản.

- Chameleon có thể xử lý kết hợp văn bản và hình ảnh (có thể liên quan với nhau) và tạo ra phản hồi có ý nghĩa.

- Ví dụ, bạn có thể chụp ảnh nội dung tủ lạnh và hỏi Chameleon món ăn nào có thể nấu chỉ với nguyên liệu sẵn có.

- Điều này không thể thực hiện được với thế hệ mô hình AI Llama, đưa nguồn mở đến gần hơn với các mô hình thị giác chính thống nổi tiếng hơn từ OpenAI và Google.

- Nhóm nghiên cứu Fundamental AI Research (FAIR) tại Meta đã phát hành công khai mô hình này cho mục đích nghiên cứu, tuy nhiên có một số hạn chế.

- Chìa khóa thành công của Chameleon là kiến trúc hoàn toàn dựa trên token. Mô hình học cách lý luận về hình ảnh và văn bản một cách liên kết.

- Các thách thức kỹ thuật mà nhóm Meta phải vượt qua bao gồm những vấn đề liên quan đến tính ổn định tối ưu hóa và mở rộng quy mô, bằng cách sử dụng các phương pháp và kỹ thuật đào tạo mới.

- Người dùng có thể yêu cầu Chameleon tạo lịch trình trải nghiệm ngày hạ chí và mô hình AI sẽ cung cấp hình ảnh liên quan kèm theo văn bản tạo ra.

- Theo đánh giá của con người, Chameleon tương đương hoặc vượt trội hơn các mô hình như Gemini Pro và GPT-4V khi lời nhắc hoặc đầu ra chứa chuỗi hỗn hợp cả hình ảnh và văn bản.

- Phiên bản Chameleon được phát hành công khai chỉ có thể tạo ra văn bản đầu ra và mức độ an toàn được tăng cường có chủ đích.

- Đối với các nhà nghiên cứu, Chameleon là nguồn cảm hứng cho các cách thay thế để đào tạo và thiết kế mô hình AI.

📌 Chameleon của Meta là bước tiến đáng kể trong AI mã nguồn mở, với khả năng xử lý linh hoạt cả hình ảnh và văn bản, tương đương các mô hình thương mại như Gemini Pro, GPT-4V. Kiến trúc dựa trên token và các kỹ thuật đào tạo mới giúp Chameleon vượt qua thách thức tối ưu hóa, mở rộng quy mô. Phiên bản công khai hiện chỉ tạo văn bản đầu ra, nhưng đã tiến bộ đáng kể so với 5 tháng trước.

https://www.tomsguide.com/ai/meta-just-dropped-an-open-source-gpt-4o-style-model-heres-what-it-means

Không có file đính kèm.

Nguồn tham khảo

203

AI mở-nguồn mở 2024-06-19 15:58:47

NVIDIA tung ra HelpSteer2 và Llama3-70B-SteerLM-RM: cuộc cách mạng AI trong lái xe tự động và xử lý ngôn ngữ tự nhiên

- NVIDIA giới thiệu HelpSteer2 và Llama3-70B-SteerLM-RM, hai công nghệ đột phá trong trí tuệ nhân tạo
- HelpSteer2: hệ thống lái xe tự động mới với thuật toán tiên tiến và tích hợp cảm biến nâng cao
- Sử dụng kết hợp cảm biến lidar, radar và camera để tạo ra hiểu biết toàn diện về môi trường xung quanh xe
- Liên tục học hỏi và thích nghi với các tình huống lái xe trong thế giới thực bằng cách xử lý lượng lớn dữ liệu
- Tính năng hỗ trợ người lái tiên tiến: giữ làn đường tự động, kiểm soát hành trình thích ứng, tránh va chạm
- Llama3-70B-SteerLM-RM: mô hình ngôn ngữ tân tiến với 70 tỷ tham số
- Được thiết kế để xuất sắc trong các tác vụ đòi hỏi hiểu ngôn ngữ và tạo ngôn ngữ tinh tế
- Khả năng điều khiển đầu ra dựa trên yêu cầu hoặc ràng buộc cụ thể của người dùng
- Kết hợp cơ chế học tăng cường mạnh mẽ để tinh chỉnh hiệu suất dựa trên phản hồi của người dùng
- Thể hiện cam kết của NVIDIA trong việc thúc đẩy AI và tiềm năng của AI trong việc thay đổi nhiều ngành công nghiệp

📌 HelpSteer2 và Llama3-70B-SteerLM-RM của NVIDIA đánh dấu bước tiến quan trọng trong lĩnh vực lái xe tự động và xử lý ngôn ngữ tự nhiên với các thuật toán tiên tiến, tích hợp cảm biến nâng cao và 70 tỷ tham số. Hai công nghệ này hứa hẹn sẽ thúc đẩy những tiến bộ đáng kể, nâng cao an toàn, hiệu quả và trải nghiệm người dùng, tác động sâu sắc đến cách con người tương tác với công nghệ trong cuộc sống hàng ngày.

https://www.marktechpost.com/2024/06/18/nvidia-ai-releases-helpsteer2-and-llama3-70b-steerlm-rm-an-open-source-helpfulness-dataset-and-a-70-billion-parameter-language-model-respectively/

Không có file đính kèm.

Nguồn tham khảo

120

AI coding assistant AI mở-nguồn mở 2024-06-19 15:49:00

DeepSeek Coder V2 của Trung Quốc trở thành mô hình lập trình mã nguồn mở đầu tiên vượt qua GPT-4 Turbo

- DeepSeek Coder V2 được xây dựng dựa trên DeepSeek-V2, một mô hình MoE ra mắt tháng trước.
- Mô hình này hỗ trợ hơn 300 ngôn ngữ lập trình, tăng từ 86 ngôn ngữ của phiên bản gốc, và mở rộng cửa sổ ngữ cảnh lên 128K.
- Trên các bài kiểm tra MBPP+, HumanEval và Aider, DeepSeek Coder V2 đạt điểm số lần lượt là 76.2, 90.2 và 73.7, vượt trội hơn hầu hết các mô hình nguồn đóng và mở như GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro, Codestral và Llama-3 70B.
- Để đạt được những tiến bộ này, DeepSeek đã tiền huấn luyện mô hình cơ sở V2 trên bộ dữ liệu bổ sung 6 nghìn tỷ token, chủ yếu bao gồm dữ liệu liên quan đến mã và toán học từ GitHub và CommonCrawl.
- DeepSeek Coder V2 cũng đạt hiệu suất tốt trong các tác vụ lý luận và hiểu ngôn ngữ tổng quát. Trên bài kiểm tra MMLU, nó đạt 79.2 điểm, tốt hơn nhiều so với các mô hình chuyên biệt về mã khác.
- Mô hình này hiện được cung cấp theo giấy phép MIT, cho phép sử dụng cả trong nghiên cứu và thương mại không hạn chế. Người dùng có thể tải xuống cả hai kích thước 16B và 236B trên Hugging Face hoặc truy cập qua API trên nền tảng của công ty.

📌 DeepSeek Coder V2 là mô hình lập trình mã nguồn mở đầu tiên vượt trội hơn GPT-4 Turbo và các mô hình nguồn đóng khác. Với khả năng hỗ trợ hơn 300 ngôn ngữ lập trình và hiệu suất mạnh mẽ trên nhiều bài kiểm tra, mô hình 16B và 236B này hứa hẹn mang lại nhiều tiện ích cho cả nghiên cứu và ứng dụng thương mại.

https://venturebeat.com/ai/chinas-deepseek-coder-becomes-first-open-source-coding-model-to-beat-gpt-4-turbo/

Không có file đính kèm.

Nguồn tham khảo

219

AI models AI mở-nguồn mở 2024-06-19 15:32:00

Meta công bố 4 mô hình AI mới và các sản phẩm nghiên cứu bổ sung

- Meta công bố 4 mô hình AI mới và các sản phẩm nghiên cứu bổ sung tại Meta FAIR, như một phần cam kết thúc đẩy một hệ sinh thái mở.
- Các mô hình AI mới bao gồm Meta Chameleon, cung cấp các mô hình ngôn ngữ 7B và 34B hỗ trợ đầu vào hỗn hợp và đầu ra chỉ dạng văn bản.
- Meta Multi-Token Prediction là mô hình ngôn ngữ được tiền huấn luyện để hoàn thành mã sử dụng dự đoán đa token. Phương pháp này cải thiện khả năng mô hình, hiệu quả huấn luyện và tốc độ nhanh hơn.
- Meta JASCO là mô hình tạo sinh văn bản thành âm nhạc, chấp nhận nhiều đầu vào điều kiện để kiểm soát tốt hơn. Bài báo đi kèm đã có sẵn, mô hình sẽ sớm được phát hành.
- Meta AudioSeal là mô hình thủy vân âm thanh được thiết kế đặc biệt để phát hiện cục bộ giọng nói do AI tạo ra và có sẵn theo giấy phép thương mại.
- Bên cạnh các mô hình này, Meta đang phát hành thêm các sản phẩm Responsible AI (RAI), bao gồm nghiên cứu, dữ liệu và mã nhằm đo lường và cải thiện sự đại diện của sở thích và đa dạng về địa lý và văn hóa trong các hệ thống AI.
- Meta nhấn mạnh rằng quyền truy cập vào AI tiên tiến nhất nên dành cho tất cả mọi người, không chỉ một vài công ty công nghệ lớn.

📌 Meta đã giới thiệu 4 mô hình AI mới cùng các sản phẩm nghiên cứu, bao gồm Meta Chameleon, Meta Multi-Token Prediction, Meta JASCO và Meta AudioSeal. Bên cạnh đó, Meta cũng phát hành thêm các sản phẩm RAI nhằm cải thiện tính đại diện và đa dạng trong AI. Công ty nhấn mạnh tầm quan trọng của việc chia sẻ công nghệ AI tiên tiến cho cộng đồng rộng rãi.

https://analyticsindiamag.com/meta-announces-four-new-ai-models-and-additional-research-artifacts/

Không có file đính kèm.

Nguồn tham khảo

257

AI coding assistant AI mở-nguồn mở 2024-06-19 15:28:50

DeepSeek-Coder-V2 của DeepSeek AI: Mô hình AI mã nguồn mở đầu tiên vượt trội GPT4-Turbo trong lập trình và toán học

- DeepSeek AI giới thiệu DeepSeek-Coder-V2, mô hình ngôn ngữ mã nguồn mở mới được phát triển dựa trên nền tảng DeepSeek-V2, trải qua quá trình tiền huấn luyện bổ sung với 6 nghìn tỷ token.

- DeepSeek-Coder-V2 sử dụng framework Mixture-of-Experts (MoE), hỗ trợ 338 ngôn ngữ lập trình và mở rộng ngữ cảnh từ 16K lên 128K token. Mô hình có kiến trúc gồm 16 tỷ và 236 tỷ tham số.

- Dữ liệu huấn luyện bao gồm 60% mã nguồn, 10% kho ngữ liệu toán học và 30% kho ngữ liệu ngôn ngữ tự nhiên, lấy từ GitHub và CommonCrawl.

- DeepSeek-Coder-V2 có 4 biến thể: DeepSeek-Coder-V2-Instruct, DeepSeek-Coder-V2-Base, DeepSeek-Coder-V2-Lite-Base và DeepSeek-Coder-V2-Lite-Instruct, mỗi biến thể được tối ưu cho các tác vụ và nhu cầu hiệu suất cụ thể.

- Trong các đánh giá chuẩn, DeepSeek-Coder-V2 vượt trội hơn các mô hình nguồn đóng hàng đầu trong các tác vụ lập trình và toán học. Mô hình đạt điểm 90.2% trên bài kiểm tra HumanEval và 75.7% trên bài kiểm tra MATH.

- Nghiên cứu này nhấn mạnh những cải tiến đáng kể của DeepSeek-Coder-V2 trong trí tuệ mã nguồn, giải quyết khoảng cách hiệu suất giữa các mô hình mã nguồn mở và nguồn đóng.

📌 DeepSeek-Coder-V2 đánh dấu bước tiến quan trọng trong phát triển mô hình mã nguồn mở, với khả năng xử lý các tác vụ lập trình phức tạp, hỗ trợ 338 ngôn ngữ và độ dài ngữ cảnh lên đến 128K token. Mô hình đạt điểm vượt trội 90.2% trên HumanEval và 75.7% trên MATH, thể hiện tiềm năng cách mạng hóa lĩnh vực trí tuệ mã nguồn.

https://www.marktechpost.com/2024/06/18/meet-deepseek-coder-v2-by-deepseek-ai-the-first-open-source-ai-model-to-surpass-gpt4-turbo-in-coding-and-math-supporting-338-languages-and-128k-context-length/

Không có file đính kèm.

Nguồn tham khảo

206

AI coding assistant AI mở-nguồn mở 2024-06-19 15:04:02

GitHub Copilot: từ công cụ tự động hoàn thành mã đến trợ lý AI toàn diện với hệ sinh thái mở rộng

- GitHub Copilot, ban đầu được giới thiệu như một công cụ tự động hoàn thành mã dựa trên AI, đã phát triển thành một trợ lý AI toàn diện, cách mạng hóa lĩnh vực phát triển phần mềm.
- Với việc tích hợp các công cụ và dịch vụ của bên thứ ba, GitHub Copilot đang định vị mình như một thị trường sôi động của các trợ lý AI bên thứ ba.
- Điều này trao quyền cho các nhà phát triển tối ưu hóa quy trình làm việc, tăng năng suất và khai thác một loạt các chức năng chuyên biệt.
- Kể từ khi ra mắt vào năm 2021, GitHub Copilot đã thu hút sự chú ý đáng kể từ các nhà phát triển. Ban đầu được thiết kế để hỗ trợ tự động hoàn thành mã, Copilot đã mở rộng đáng kể khả năng của mình.
- Các bản cập nhật gần đây cho thấy Copilot hiện có thể tạo ra toàn bộ đoạn mã, hỗ trợ gỡ lỗi và thậm chí hiểu được các codebase phức tạp.
- Việc giới thiệu GitHub Copilot Chat càng nâng cao khả năng của nó bằng cách tích hợp GPT-4, cung cấp khả năng lập luận logic nâng cao và khả năng tạo mã.
- GitHub Marketplace hiện trưng bày một loạt Copilot Extensions, giúp các nhà phát triển dễ dàng truy cập các công cụ như Docker, Lambda Test, Stripe và MongoDB.
- Cách tiếp cận hệ sinh thái này cho phép các nhà phát triển tùy chỉnh rộng rãi môi trường phát triển của họ, tích hợp các công cụ và dịch vụ ưa thích vào quy trình làm việc dựa trên AI của Copilot.
- Các tiện ích mở rộng này tương thích với GitHub Copilot chat trên GitHub.com, Visual Studio và Visual Studio Code.
- Bằng cách khai thác thị trường VS Code rộng lớn, các nhà phát triển có thể mở rộng khả năng của Copilot với nhiều tiện ích mở rộng khác nhau.
- Điều này không chỉ nâng cao chức năng mà còn giúp Copilot phù hợp với chiến lược của Microsoft trong việc tạo ra các hệ sinh thái thịnh vượng xung quanh sản phẩm của họ.
- Việc tích hợp với các công cụ khác của Microsoft như Azure càng làm tăng tiện ích của Copilot, cho phép chuyển đổi liền mạch giữa viết mã, kiểm thử và triển khai.

📌 GitHub Copilot đã phát triển vượt bậc từ một công cụ tự động hoàn thành mã thành trợ lý AI toàn diện với hệ sinh thái mở rộng. Nó tích hợp nhiều công cụ, dịch vụ của bên thứ ba, hỗ trợ gỡ lỗi, tạo mã với GPT-4, tương thích VS Code extensions, giúp tối ưu quy trình, tăng năng suất cho nhà phát triển, đồng thời phù hợp chiến lược xây dựng hệ sinh thái của Microsoft.

https://www.forbes.com/sites/janakirammsv/2024/06/19/how-github-copilot-evolved-with-enhanced-ai-and-ecosystem-expansion/

Không có file đính kèm.

Nguồn tham khảo

159

AI mở-nguồn mở AI nghiên cứu AI deepfake-ảo giác-ANTT 2024-06-17 23:50:03

Lamini AI đạt 95% độ chính xác và giảm 90% ảo giác trong mô hình ngôn ngữ lớn

- Lamini AI đã giới thiệu Lamini Memory Tuning, một kỹ thuật đột phá trong các mô hình ngôn ngữ lớn (LLMs), nâng cao độ chính xác lên 95% và giảm ảo giác từ 50% xuống chỉ còn 5%.
- Kỹ thuật này sử dụng hàng triệu bộ điều chỉnh chuyên gia (như Low-Rank Adapters hoặc LoRAs) với các sự kiện chính xác trên bất kỳ LLM nguồn mở nào, như Llama 3 hoặc Mistral 3.
- Lamini Memory Tuning nhúng các sự kiện vào mô hình để truy xuất thông tin liên quan nhất trong quá trình suy luận, giảm đáng kể độ trễ và chi phí trong khi duy trì độ chính xác và tốc độ cao.
- Một công ty Fortune 500 đã sử dụng Lamini Memory Tuning để đạt được độ chính xác 95% trong các ứng dụng quan trọng, so với 50% của các phương pháp trước đó.
- Các phương pháp truyền thống như Prompting và Retrieval-Augmented Generation (RAG) cải thiện độ chính xác của LLM nhưng không loại bỏ hoàn toàn ảo giác.
- Lamini Memory Tuning kết hợp các kỹ thuật truy xuất thông tin với AI, dạy mô hình rằng câu trả lời gần đúng cũng sai như câu trả lời hoàn toàn sai.
- Kỹ thuật này tạo ra một hỗn hợp lớn các chuyên gia trí nhớ (MoMEs) tương tự như các chỉ số chuyên biệt trong hệ thống truy xuất thông tin, được chọn động trong quá trình suy luận.
- Kết quả là một mô hình kích hoạt thưa thớt có khả năng mở rộng đến nhiều tham số trong khi duy trì chi phí suy luận thấp, mở rộng ứng dụng thực tế của LLMs vào các lĩnh vực trước đây bị cản trở bởi ảo giác.
- Lamini Memory Tuning hứa hẹn độ chính xác cao hơn, chi phí thấp hơn và chu kỳ phát triển nhanh hơn, cho phép áp dụng và triển khai rộng rãi trong nhiều ngành công nghiệp.

📌 Lamini Memory Tuning của Lamini AI đạt 95% độ chính xác và giảm 90% ảo giác trong các mô hình ngôn ngữ lớn, mở ra tiềm năng cho các giải pháp AI tự động và chính xác cao trong nhiều ngành công nghiệp.

https://www.marktechpost.com/2024/06/17/lamini-ais-memory-tuning-achieves-95-accuracy-and-reduces-hallucinations-by-90-in-large-language-models/

Không có file đính kèm.

Nguồn tham khảo

163

AI mở-nguồn mở 2024-06-17 08:11:27

Allen Institute for AI phát hành bộ Tulu 2.5: Mô hình AI tiên tiến với DPO và PPO

- Bộ Tulu 2.5 của Allen Institute for AI đánh dấu bước tiến quan trọng trong huấn luyện mô hình sử dụng Direct Preference Optimization (DPO) và Proximal Policy Optimization (PPO).
- Bộ bao gồm các mô hình đa dạng được huấn luyện trên nhiều bộ dữ liệu để cải thiện mô hình phần thưởng và giá trị, nhằm nâng cao hiệu suất của mô hình ngôn ngữ trong tạo văn bản, tuân thủ hướng dẫn và lập luận.
- Các biến thể nổi bật: Tulu 2.5 PPO 13B UF Mean 70B UF RM (mô hình tốt nhất), Tulu 2.5 PPO 13B Chatbot Arena 2023 (cải thiện khả năng chatbot), Tulu 2.5 DPO 13B StackExchange 60K (sử dụng 60.000 mẫu từ StackExchange), Tulu 2.5 DPO 13B Nectar 60K (sử dụng dữ liệu tổng hợp chất lượng cao), Tulu 2.5 PPO 13B HH-RLHF 60K (sử dụng phản hồi chi tiết từ con người), Tulu 2.5 DPO 13B PRM Phase 2 (cải thiện lập luận toán học), Tulu 2.5 DPO 13B HelpSteer (cải thiện tính hữu ích và rõ ràng).
- Thành phần chính và phương pháp huấn luyện: Dữ liệu ưu tiên (prompt, phản hồi, xếp hạng), DPO (tối ưu hóa trực tiếp trên dữ liệu ưu tiên), PPO (huấn luyện mô hình phần thưởng rồi tối ưu hóa chính sách), mô hình phần thưởng và giá trị.
- Đánh giá hiệu suất trên nhiều tiêu chuẩn: tính xác thực, lập luận, mã hóa, tuân thủ hướng dẫn, an toàn. Mô hình PPO vượt trội hơn DPO.
- Cải tiến đáng chú ý: Tuân thủ hướng dẫn và tính trung thực tốt hơn, khả năng mở rộng với mô hình phần thưởng lên tới 70 tỷ tham số, dữ liệu tổng hợp như UltraFeedback rất hiệu quả.

📌 Bộ Tulu 2.5 của Allen Institute for AI đại diện cho bước tiến đáng kể trong học tập dựa trên sở thích cho các mô hình ngôn ngữ. Với các phương pháp huấn luyện tiên tiến và sử dụng các bộ dữ liệu chất lượng cao, bộ này thiết lập tiêu chuẩn mới cho hiệu suất và độ tin cậy của mô hình AI, mở ra tiềm năng ứng dụng rộng rãi trong tạo văn bản, lập luận, mã hóa và nhiều lĩnh vực khác.

https://www.marktechpost.com/2024/06/16/allen-institute-for-ai-releases-tulu-2-5-suite-on-hugging-face-advanced-ai-models-trained-with-dpo-and-ppo-featuring-reward-and-value-models/

Không có file đính kèm.

Nguồn tham khảo

129

AI mở-nguồn mở AI nhỏ 2024-06-17 00:13:57

OpenVLA: mô hình nguồn mở 7B tham số đặt ra tiêu chuẩn mới cho chính sách thao tác robot

- OpenVLA là một mô hình VLA nguồn mở 7B tham số, đặt ra tiêu chuẩn mới cho các chính sách thao tác robot, do các nhà nghiên cứu từ Stanford, UC Berkeley, Toyota Research Institute, Google Deepmind và MIT đề xuất.
- OpenVLA bao gồm một mô hình ngôn ngữ điều kiện trực quan được tiền huấn luyện, nắm bắt các chi tiết trực quan ở nhiều cấp độ khác nhau. Nó được tinh chỉnh trên tập dữ liệu lớn và đa dạng gồm 970k quỹ đạo thao tác robot từ tập dữ liệu Open-X Embodiment.
- OpenVLA vượt trội hơn mô hình hàng đầu trước đó, RT-2-X 55B tham số, với 16,5% tỷ lệ thành công tuyệt đối trên 29 tác vụ trên nền tảng WidowX và Google Robot.
- Các chính sách OpenVLA hoạt động tốt hơn các chính sách được tiền huấn luyện và tinh chỉnh như Octo. Để huấn luyện OpenVLA, khung VLM Prismatic-7B được tiền huấn luyện để dự đoán các hành động của robot.
- Cả hai phiên bản của Diffusion Policy đều tốt bằng hoặc vượt trội hơn các chính sách tổng quát Octo và OpenVLA cho các tác vụ đơn giản hơn chỉ cần một hướng dẫn. Tuy nhiên, đối với các tác vụ tinh chỉnh phức tạp hơn liên quan đến nhiều đối tượng và cần hướng dẫn ngôn ngữ, các chính sách tổng quát được tiền huấn luyện hoạt động tốt hơn.
- OpenVLA là cách tiếp cận duy nhất đạt tỷ lệ thành công ít nhất 50% trên tất cả các tác vụ được thử nghiệm, khiến nó trở thành một lựa chọn mặc định mạnh mẽ cho các tác vụ học bắt chước, đặc biệt là những tác vụ liên quan đến nhiều hướng dẫn ngôn ngữ khác nhau.

📌 OpenVLA, một mô hình nguồn mở tiên tiến với 7 tỷ tham số, thể hiện hiệu suất vượt trội trong việc điều khiển nhiều loại robot ngay từ đầu. Phương pháp này có thể dễ dàng thích ứng với các thiết lập robot mới thông qua các kỹ thuật tinh chỉnh tham số hiệu quả, đạt tỷ lệ thành công ít nhất 50% trên tất cả các tác vụ được thử nghiệm. Tuy nhiên, OpenVLA hiện chỉ hỗ trợ quan sát hình ảnh đơn lẻ, và cần được mở rộng để hỗ trợ nhiều đầu vào hình ảnh, cảm nhận vị trí và lịch sử quan sát.

https://www.marktechpost.com/2024/06/16/openvla-a-7b-parameter-open-source-vla-setting-new-state-of-the-art-for-robot-manipulation-policies/

Không có file đính kèm.

Nguồn tham khảo

151

AI models AI mở-nguồn mở 2024-06-16 09:17:20

Tương lai của AI với 700.000 mô hình ngôn ngữ lớn trên Hugging Face

- Nhiều người dùng Reddit cho rằng 99% trong số 700.000 mô hình ngôn ngữ lớn (LLM) trên Hugging Face là vô dụng và sẽ bị xóa theo thời gian. Nhiều mô hình chỉ là bản sao hoặc chỉnh sửa nhẹ từ các mô hình gốc.

- Một người dùng chia sẻ câu chuyện cá nhân về việc tạo ra mô hình với dữ liệu không đầy đủ, cho thấy nhiều mô hình là kết quả của các nghiên cứu tùy tiện hoặc kém chất lượng tương tự. Điều này đặt ra vấn đề về kiểm soát chất lượng và yêu cầu phương pháp quản lý có tổ chức hơn.

- Một số người lập luận rằng sự nhân rộng mô hình là thành phần quan trọng của quá trình thử nghiệm. Mặc dù lộn xộn, phương pháp này là cần thiết cho sự phát triển của AI, giúp các nhà nghiên cứu tạo ra các LLM chuyên biệt và phức tạp hơn.

- Nhiều người bày tỏ sự không hài lòng với quy trình đánh giá mô hình trên Hugging Face. Sự thiếu hệ thống phân loại và sắp xếp mạnh mẽ khiến việc tìm kiếm mô hình chất lượng cao trở nên khó khăn.

- Một người dùng đề xuất hệ thống chấm điểm tương đối giữa các mô hình, tương tự như bài kiểm tra trí thông minh, cho phép đánh giá linh hoạt và năng động hơn về hiệu suất mô hình.

- Giá trị của mô hình học sâu thường giảm nhanh chóng khi xuất hiện các mô hình mới tốt hơn. Do đó, cần tạo ra môi trường năng động buộc các mô hình phải liên tục thay đổi để duy trì tính phù hợp.

📌 Sự gia tăng 700.000 LLM trên Hugging Face cho thấy những thách thức và cơ hội đối với cộng đồng AI. Thời kỳ thử nghiệm mạnh mẽ này là cần thiết cho sự tiến bộ, nhưng đòi hỏi cải thiện quản lý, đánh giá và tiêu chuẩn hóa. Cần cân bằng giữa thúc đẩy đổi mới và duy trì chất lượng khi lĩnh vực AI phát triển.

https://www.marktechpost.com/2024/06/15/with-700000-large-language-models-llms-on-hugging-face-already-where-is-the-future-of-artificial-intelligence-ai-headed/

Không có file đính kèm.

Nguồn tham khảo

165

AI mở-nguồn mở AI data AI ngân hàng-tài chính 2024-06-15 08:59:19

Gretel AI phát hành bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới trên HuggingFace 🤗 cho các nhà phát triển AI

- Gretel AI đã phát hành bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới trên nền tảng HuggingFace 🤗 để hỗ trợ các nhà phát triển AI trong việc phát hiện thông tin nhận dạng cá nhân (PII).
- Bộ dữ liệu bao gồm 55.940 bản ghi, trong đó 50.776 mẫu dùng để huấn luyện và 5.164 mẫu dùng để kiểm tra.
- Dữ liệu đa dạng với 100 định dạng tài liệu tài chính khác nhau, mỗi loại có 20 tiểu loại cụ thể.
- Chứa 29 loại PII khác nhau, phù hợp với trình tạo thư viện Python Faker để dễ dàng phát hiện và thay thế.
- Độ dài trung bình của tài liệu là 1.357 ký tự.
- Hỗ trợ đa ngôn ngữ: Tiếng Anh, Tây Ban Nha, Thụy Điển, Đức, Ý, Hà Lan và Pháp.
- Sử dụng kỹ thuật "LLM-as-a-Judge" với mô hình ngôn ngữ Mistral-7B để đảm bảo chất lượng dữ liệu.
- Bộ dữ liệu có thể được sử dụng để huấn luyện các mô hình NER, kiểm tra hệ thống quét PII, đánh giá hệ thống khử nhận dạng và phát triển các giải pháp bảo mật dữ liệu cho ngành tài chính.

📌 Bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới của Gretel AI là một nguồn tài nguyên quý giá cho các nhà phát triển và nghiên cứu xây dựng các giải pháp phát hiện PII mạnh mẽ. Với 55.940 bản ghi đa dạng, hỗ trợ 7 ngôn ngữ và đảm bảo chất lượng cao, bộ dữ liệu này sẽ thúc đẩy sự phát triển của các hệ thống AI chính xác, công bằng và đáng tin cậy hơn trong lĩnh vực tài chính.

https://www.marktechpost.com/2024/06/13/gretel-ai-releases-a-new-multilingual-synthetic-financial-dataset-on-huggingface-%F0%9F%A4%97-for-ai-developers-tackling-personally-identifiable-information-pii-detection/

Không có file đính kèm.

Nguồn tham khảo

200

AI mở-nguồn mở AI nhỏ 2024-06-14 12:05:39

SEA-LION - mô hình ngôn ngữ lớn mã nguồn mở đầu tiên tập trung vào Đông Nam Á

- SEA-LION là mô hình ngôn ngữ lớn (LLM) mã nguồn mở do AI Singapore (AISG) phát triển, tập trung vào ngôn ngữ và văn hóa Đông Nam Á.
- Mô hình hiện chạy trên 2 phiên bản: 3 tỷ tham số và 7 tỷ tham số, được huấn luyện trên 981 tỷ token ngôn ngữ, bao gồm 623 tỷ token tiếng Anh, 128 tỷ token Đông Nam Á và 91 tỷ token tiếng Trung.
- 13% dữ liệu đằng sau SEA-LION tập trung vào Đông Nam Á, trong khi Llama 2 của Meta chỉ chứa 0.5%.
- AISG dự kiến phát hành mô hình 7 tỷ tham số mới vào giữa năm 2024 và các mô hình 13 tỷ và 30 tỷ tham số sau đó trong năm nay.
- Mục tiêu là cải thiện hiệu suất của LLM với các mô hình lớn hơn, có khả năng tạo ra các kết nối tốt hơn, có khả năng nhắc nhở zero-shot và hiểu ngữ cảnh mạnh mẽ hơn về các nét đặc trưng của khu vực.
- Singapore cũng đang tìm cách giải quyết sự thiếu hụt các tiêu chuẩn mạnh mẽ để đánh giá hiệu quả của mô hình AI và phát triển các chỉ số để xác định sự thiên vị trong các LLM tập trung vào châu Á.
- Trung Quốc hiện dẫn đầu với hơn 200 mô hình nền tảng. Các mô hình khác cũng đang nhanh chóng xuất hiện trên khắp khu vực.
- Đối với hầu hết các doanh nghiệp, việc mua các mô hình nền tảng từ các nhà cung cấp bên ngoài sẽ là chuẩn mực. Khả năng thích ứng của mô hình đối với nhu cầu kinh doanh cụ thể và tính khả dụng tại địa phương trong khu vực đặc biệt quan trọng.
- Các tổ chức nên có cái nhìn toàn diện khi đánh giá các mô hình nền tảng và duy trì cách tiếp cận tiệm tiến trong việc áp dụng AI tạo sinh.
- Ấn Độ cũng đang tìm cách xây dựng mô hình nền tảng của riêng mình để hỗ trợ tốt hơn các yêu cầu độc đáo của mình.
- Hầu hết các tổ chức ở khu vực sẽ áp dụng cách tiếp cận lai, tận dụng cả mô hình nền tảng châu Á - Thái Bình Dương và Hoa Kỳ để cung cấp năng lượng cho nền tảng AI của họ.

📌 SEA-LION là mô hình ngôn ngữ lớn mã nguồn mở đầu tiên tập trung vào Đông Nam Á với 981 tỷ token ngôn ngữ, trong đó 13% dữ liệu tập trung vào khu vực. AISG đang phát triển các mô hình lớn hơn lên đến 30 tỷ tham số và các tiêu chuẩn mới để đánh giá hiệu quả, giải quyết sự thiếu hụt và thiên vị trong các LLM hiện tại.

https://www.zdnet.com/article/singapore-is-among-asian-nations-championing-need-for-more-inclusive-ai-models/

Không có file đính kèm.

Nguồn tham khảo

188

AI benchmark AI mở-nguồn mở 2024-06-14 07:29:52

GenAI-Arena: đánh giá mô hình AI tạo sinh đa dạng qua bình chọn cộng đồng

- GenAI-Arena là nền tảng mở vững chắc, cho phép đánh giá công bằng các mô hình AI tạo sinh thông qua bình chọn của người dùng.
- Nền tảng hỗ trợ nhiều tác vụ như tạo ảnh từ văn bản, chỉnh sửa ảnh theo văn bản và tạo video từ văn bản.
- Người dùng có thể tạo ảnh, so sánh các mô hình và bình chọn ẩn danh cho mô hình ưa thích.
- Hệ thống xếp hạng phản ánh sở thích của con người, đánh giá toàn diện khả năng của mô hình.
- GenAI-Arena là nền tảng đánh giá đầu tiên hỗ trợ đầy đủ nhiều thuộc tính, quy trình bình chọn công khai, đảm bảo tính minh bạch.
- Nền tảng đã thu thập hơn 6.000 phiếu bầu cho 3 tác vụ tạo sinh đa phương thức, xây dựng bảng xếp hạng cho từng tác vụ, xác định các mô hình tiên tiến nhất.
- Đối với tác vụ tạo ảnh, các mô hình Playground V2.5 và V2 dẫn đầu, vượt trội hơn đáng kể so với SDXL thứ 7 nhờ dữ liệu huấn luyện riêng.
- Đối với tác vụ chỉnh sửa ảnh, MagicBrush, InFEdit, CosXLEdit cho phép chỉnh sửa cục bộ xếp hạng cao hơn.
- Trong tác vụ tạo video từ văn bản, T2VTurbo dẫn đầu với điểm Elo cao nhất, theo sau là StableVideoDiffusion, VideoCrafter2, AnimateDiff.
- Nghiên cứu công bố dữ liệu sở thích của con người chất lượng cao GenAI-Bench, cho thấy các mô hình ngôn ngữ đa phương thức hiện tại tương quan kém với đánh giá của con người.

📌 GenAI-Arena là nền tảng mở dựa trên bình chọn cộng đồng để xếp hạng các mô hình tạo sinh trên nhiều tác vụ. Với hơn 6.000 phiếu bầu từ tháng 2 đến tháng 6 năm 2024, các bảng xếp hạng Elo đã xác định những mô hình tiên tiến nhất. Phân tích cũng chỉ ra sự tương quan kém giữa các mô hình ngôn ngữ đa phương thức hiện có với đánh giá của con người về chất lượng nội dung được tạo ra.

https://www.marktechpost.com/2024/06/12/genai-arena-an-open-platform-for-community-based-evaluation-of-generative-ai-models/

Không có file đính kèm.

Nguồn tham khảo

132

AI tools AI mở-nguồn mở 2024-06-14 00:21:08

Yandex của Nga phát hành công cụ AI miễn phí giúp tiết kiệm hàng chục triệu USD huấn luyện LLM

- Yandex, gã khổng lồ công nghệ của Nga, đã phát hành một công cụ mã nguồn mở mới có tên YaFSDP nhằm giúp các công ty AI tiết kiệm tiền và tài nguyên khi huấn luyện các mô hình mới.
- Công cụ YaFSDP có thể cung cấp khả năng huấn luyện mô hình ngôn ngữ lớn (LLM) nhanh hơn và hiệu quả hơn, tiết kiệm tới 20% tài nguyên GPU, giúp tiết kiệm tiền và thời gian.
- Yandex ước tính việc sử dụng YaFSDP để huấn luyện một mô hình với 70 tỷ tham số có thể tiết kiệm tài nguyên của khoảng 150 GPU, tương đương từ 0.5 đến 1.5 triệu USD tiền thuê GPU hàng tháng.
- Sử dụng các mô hình Llama của Meta, Yandex cho biết tốc độ tăng cuối cùng là 21% và 26% trên Llama 2 70B và Llama 3 70B.
- YaFSDP không phải là sản phẩm AI đầu tiên của Yandex. Trước đó, họ đã phát hành CatBoost, YTsaurus, AQLM và Petals, mỗi sản phẩm xử lý một lĩnh vực khác nhau trong phát triển AI.
- Động thái của Yandex diễn ra sau khi họ phải thoái vốn khỏi Nga sau cuộc chiến Ukraine, bán mảng kinh doanh trong nước cho ban quản lý trước đó của họ ở Nga.

📌 Yandex đã phát hành công cụ mã nguồn mở YaFSDP giúp tiết kiệm tới 20% tài nguyên GPU và 0.5-1.5 triệu USD chi phí hàng tháng khi huấn luyện các mô hình ngôn ngữ lớn. Công cụ này cung cấp tốc độ huấn luyện nhanh hơn 21-26% so với phiên bản trước, mở ra tiềm năng to lớn cho các công ty phát triển AI.

https://www.techradar.com/pro/russias-largest-tech-company-just-released-a-free-ai-tool-that-could-save-microsoft-google-and-facebook-tens-of-millions-of-dollars

Không có file đính kèm.

Nguồn tham khảo

131

AI robotics-auto-agents AI mở-nguồn mở 2024-06-13 16:52:00

Hoàn thành tác vụ phức tạp với AI agents của Microsoft AutoGen

- AutoGen của Microsoft sử dụng quy trình đa tác tử để thực hiện các tác vụ phức tạp bằng cách tận dụng sức mạnh của các mô hình nền tảng lớn.
- Nền tảng chia nhỏ các vấn đề phức tạp thành các thành phần có thể quản lý được và giao vai trò chuyên biệt cho từng tác tử dựa trên khả năng độc đáo của chúng.
- Các tác tử chính của AutoGen bao gồm: Trợ lý chung, Thiết bị đầu cuối máy tính, Máy chủ web và Người điều phối.
- AutoGen là một nền tảng nguồn mở, có sẵn miễn phí trên GitHub, cho phép các nhà phát triển và nhà nghiên cứu khám phá và đóng góp vào sự phát triển của hệ thống đa tác tử.
- Nền tảng đã giành được vị trí hàng đầu trên bảng xếp hạng Gaia Benchmark và thể hiện khả năng tăng gấp đôi hiệu suất trong các câu hỏi khó đòi hỏi nhiều hành động và sử dụng công cụ.
- Quy trình đa tác tử của AutoGen tuân theo một cách tiếp cận có hệ thống, bao gồm: Truy vấn ban đầu, Tạo sổ cái, Ủy quyền tác vụ, Giám sát tiến độ, Cập nhật sổ cái và Phân công lại tác vụ.
- Các phát triển trong tương lai nhằm giải quyết các bài kiểm tra phức tạp hơn và các tình huống thực tế, đẩy ranh giới của những gì có thể với hệ thống đa tác tử.

📌 AutoGen của Microsoft đại diện cho một bước tiến đáng kể trong lĩnh vực quy trình đa tác tử để thực hiện tác vụ phức tạp. Với khả năng vượt trội trong các bài kiểm tra và tiềm năng to lớn để cách mạng hóa cách tiếp cận các vấn đề phức tạp, AutoGen đang dẫn đầu xu hướng và mở ra một tương lai tươi sáng hơn bao giờ hết cho việc giải quyết tác vụ với sự hỗ trợ của AI.

https://www.geeky-gadgets.com/microsoft-ai-agents-and-autogen/

Không có file đính kèm.

Nguồn tham khảo

124

AI mở-nguồn mở AI robotics-auto-agents 2024-06-12 11:50:28

Meta giới thiệu Husky, một agent ngôn ngữ mã nguồn mở cho các tác vụ lập luận phức tạp, nhiều bước

- Các nhà nghiên cứu tại Meta, Allen Institute for AI và Đại học Washington đã giới thiệu Husky, một agent ngôn ngữ mã nguồn mở mới được thiết kế cho các tác vụ lập luận phức tạp, nhiều bước.
- Không giống như các mô hình hiện có tập trung vào các lĩnh vực cụ thể, Husky hoạt động trên một không gian hành động thống nhất, có thể xử lý các thử thách đa dạng như lập luận số, bảng và dựa trên kiến thức.
- Husky lặp lại giữa việc tạo ra các hành động để giải quyết tác vụ và thực thi các hành động này bằng cách sử dụng các mô hình chuyên gia, liên tục cập nhật trạng thái giải pháp của nó.
- Quá trình lặp lại này đã được chứng minh là một điểm khác biệt quan trọng, cho phép Husky vượt trội hơn các agent trước đó trên 14 bộ dữ liệu được sử dụng để đánh giá.
- Một trong những đổi mới chính của Husky là khả năng quản lý lập luận đa công cụ. Nó xuất sắc trong các tác vụ đòi hỏi truy xuất kiến thức còn thiếu và thực hiện các phép tính số, đạt được hiệu suất ngang bằng hoặc vượt trội hơn các mô hình tiên tiến nhất như GPT-4.
- Các nhà nghiên cứu cũng đã giới thiệu HuskyQA, một bộ đánh giá được thiết kế đặc biệt để stress test các agent ngôn ngữ trên các tác vụ lập luận đa công cụ, đặc biệt là để thực hiện lập luận số và truy xuất kiến thức còn thiếu.
- Các agent ngôn ngữ thực hiện các tác vụ phức tạp bằng cách sử dụng các công cụ để thực hiện từng bước một cách chính xác. Tuy nhiên, hầu hết các agent hiện có đều dựa trên các mô hình độc quyền hoặc được thiết kế để nhắm mục tiêu các tác vụ cụ thể, chẳng hạn như toán học hoặc trả lời câu hỏi nhiều bước.
- Mặc dù các agent AI đã thu hút sự chú ý đáng kể trong vài năm qua, việc giới thiệu một agent có khả năng lập luận trên một số tác vụ phức tạp có nghĩa là khả năng của agent đang mở rộng nhanh chóng.

📌 Husky, một agent ngôn ngữ mã nguồn mở mới của Meta AI, có khả năng xử lý các tác vụ lập luận phức tạp và đa dạng nhờ không gian hành động thống nhất. Với khả năng lập luận đa công cụ vượt trội, đặc biệt trong các tác vụ đòi hỏi truy xuất kiến thức và tính toán số, Husky đã vượt qua 14 bộ dữ liệu đánh giá và đạt hiệu suất ngang bằng hoặc cao hơn các mô hình tiên tiến như GPT-4.

https://analyticsindiamag.com/meta-ai-unveils-husky-a-unified-open-source-language-agent/

Không có file đính kèm.

Nguồn tham khảo

110

AI mở-nguồn mở AI doanh nghiệp 2024-06-12 00:06:21

Chúng ta cần một Red Hat cho AI

- Theo khảo sát của Wakefield, 91% lãnh đạo dữ liệu đang xây dựng ứng dụng AI, nhưng 2/3 trong số đó nói rằng họ không tin tưởng dữ liệu của mình cho các mô hình ngôn ngữ lớn (LLMs).

- Để thành công, chúng ta cần vượt qua sự thổi phồng gây nhầm lẫn và giúp các doanh nghiệp hiểu rõ về AI. Chúng ta cần nhiều niềm tin hơn (mô hình mở) và ít thành phần di chuyển hơn (nền tảng có ý kiến đòi hỏi phải đoán và áp dụng mô hình).

- Mô hình kinh doanh của Red Hat hoạt động vì sự phức tạp của công nghệ mà họ làm việc. Khách hàng sẵn sàng trả tiền để được cách ly khỏi sự phức tạp đó. Red Hat tạo ra một bản phân phối Linux, chọn các gói nhất định và sau đó kiểm tra/làm cứng bản phân phối đó cho khách hàng.

- Quá trình giải mã Linux này, kết hợp với mã nguồn mở tạo ra sự tin tưởng vào mã, đã biến Red Hat thành một doanh nghiệp trị giá hàng tỷ đô la. Thị trường cần một cái gì đó tương tự cho AI.

- OpenAI không phải là giải pháp. Nó chỉ tiếp tục làm trầm trọng thêm vấn đề với các mô hình ngày càng tăng. Các doanh nghiệp đang bắt đầu tránh xa sự thổi phồng và thực hiện nhiều công việc bình thường, hữu ích hơn với tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG).

- Các nhà cung cấp đám mây vẫn giữ nguyên kịch bản hiện có của họ. AWS cung cấp "Broad Model Choice and Generative AI Tools" trên Amazon Bedrock, nhưng hầu hết các doanh nghiệp ngày nay không cần "sự lựa chọn rộng rãi" mà là sự lựa chọn có ý nghĩa với hướng dẫn.

📌 Thị trường AI đang ở đỉnh cao của sự thổi phồng nhưng chưa đạt đỉnh cao về năng suất. Để thành công, chúng ta cần một "Red Hat cho AI" - một công ty có thể giúp các doanh nghiệp hiểu rõ và sử dụng AI một cách hiệu quả, thông qua việc cung cấp các mô hình mở và nền tảng có ý kiến, thay vì sự lựa chọn quá rộng rãi và phức tạp như hiện nay.

https://www.infoworld.com/article/3715358/we-need-a-red-hat-for-ai.html

Không có file đính kèm.

Nguồn tham khảo

122

AI mở-nguồn mở 2024-06-10 10:53:37

Huawei đặt cược lớn vào việc triển khai đám mây và AI với bản phát hành openEuler 24.03 LTS

- openEuler 24.03 LTS là bản phát hành mới nhất của hệ điều hành Linux nguồn mở openEuler, được phát triển bởi gã khổng lồ công nghệ Huawei và quản lý dưới tổ chức phi lợi nhuận OpenAtom.
- Phiên bản này thể hiện tham vọng lớn của Huawei trong lĩnh vực điện toán đám mây, điện toán biên (edge computing), trí tuệ nhân tạo (AI) và các ứng dụng nhúng.
- openEuler 24.03 LTS được Huawei hỗ trợ dài hạn trong 4 năm, dựa trên nhân Linux 6.6, cho phép người dùng cài đặt thủ công các môi trường desktop như UKUI, GNOME, Deepin, Kiran-desktop và Xfce.
- Huawei cung cấp hỗ trợ phần cứng đa dạng từ Intel, AMD, Zhaoxin, Hygon, Kunpeng, Loongson, ShenWei, Sophgo và nhiều hãng khác, bao gồm các kiến trúc CPU phổ biến như x86, ARM, SW64 và RISC-V.
- openEuler Software Center do Huawei giới thiệu, cho phép người dùng dễ dàng cài đặt ứng dụng mới và cập nhật các ứng dụng hiện có.
- Huawei tích hợp trợ lý ảo EulerCopilot dựa trên AI, hỗ trợ sinh mã, phân tích vấn đề và hỗ trợ vận hành, bảo trì hệ thống.
- Bộ ứng dụng đầy đủ từ Huawei gồm Firefox, Terminal, Calculator, Text Editor, Disks, Screenshot Tool và ứng dụng Help Manual.
- Người dùng có thể tìm hiểu sâu hơn về tầm nhìn của Huawei với bản phát hành này thông qua tài liệu white paper.

📌 openEuler 24.03 LTS cho thấy tham vọng lớn của Huawei trong việc thúc đẩy hệ điều hành nguồn mở openEuler, mang đến nhiều đột phá cho điện toán đám mây, AI và các ứng dụng nhúng. Với sự hỗ trợ mạnh mẽ từ Huawei về phần cứng, tích hợp trợ lý ảo thông minh cùng openEuler Software Center tiện lợi, phiên bản này hứa hẹn trải nghiệm an toàn, đáng tin cậy cho người dùng trong 4 năm tới, đồng thời khẳng định vị thế của Huawei trong lĩnh vực phần mềm nguồn mở.

https://news.itsfoss.com/openeuler-24-03-lts/

https://www.openeuler.org/whitepaper/en/openEuler%2024.03%20LTS%20Technical%20White%20Paper.pdf?ref=news.itsfoss.com

Không có file đính kèm.

Nguồn tham khảo

AI data AI mở-nguồn mở 2024-06-08 06:21:26

Zyphra ra mắt bộ dữ liệu huấn luyện AI Zyda 1.3 nghìn tỷ token, cải thiện hiệu suất LLM

- Zyphra Technologies Inc., được hỗ trợ bởi Intel Capital, ra mắt Zyda - một bộ dữ liệu huấn luyện AI gồm 1,3 nghìn tỷ token, giúp các nhà nghiên cứu xây dựng các mô hình ngôn ngữ lớn (LLM).
- Zyda tổng hợp thông tin từ 7 bộ dữ liệu mã nguồn mở, được lọc bỏ nội dung vô nghĩa, trùng lặp và có hại bằng các kịch bản tùy chỉnh và ngưỡng an toàn.
- Quá trình lọc dữ liệu diễn ra qua 2 giai đoạn: loại bỏ văn bản vô nghĩa do lỗi định dạng và xóa nội dung có hại dựa trên các tiêu chí văn bản.
- Zyphra cũng loại bỏ các tài liệu trùng lặp trong từng bộ dữ liệu và giữa 7 bộ dữ liệu với nhau, giúp nén Zyda từ 2 nghìn tỷ token xuống còn 1,4 nghìn tỷ.
- Chất lượng của Zyda được kiểm tra bằng cách sử dụng nó để huấn luyện mô hình ngôn ngữ nội bộ Zamba (7 tỷ tham số) trên 128 card đồ họa Nvidia H100.
- Zamba sử dụng kiến trúc Mamba đơn giản hơn Transformer, kết hợp với lớp attention giúp ưu tiên thông tin quan trọng.
- Zamba vượt trội hơn Llama 2 7B của Meta và một số mô hình ngôn ngữ mã nguồn mở khác, mặc dù được huấn luyện trên lượng dữ liệu ít hơn.

📌 Zyda - bộ dữ liệu huấn luyện AI 1,3 nghìn tỷ token của Zyphra - giúp đơn giản hóa việc xây dựng LLM bằng cách lọc bỏ nội dung vô nghĩa, trùng lặp và có hại. Mô hình Zamba được huấn luyện trên Zyda đã vượt trội hơn nhiều LLM mã nguồn mở khác với lượng dữ liệu ít hơn.

https://siliconangle.com/2024/06/07/zyphra-debuts-zyda-llm-training-dataset-1-3t-tokens/

Không có file đính kèm.

Nguồn tham khảo

200

AI mở-nguồn mở 2024-06-07 15:52:03

GLM-4 9B của Đại học Thanh Hoa: mô hình ngôn ngữ trội hơn GPT-4, Gemini Pro, Mistral và Llama 3 8B

- GLM-4 9B là mô hình ngôn ngữ mạnh mẽ được phát triển bởi nhóm Tsinghua Deep Model (THUDM) của Đại học Tsinghua (Thanh Hoa).
- Mô hình được huấn luyện trên 10 nghìn tỷ token bao gồm 26 ngôn ngữ, hỗ trợ đa dạng khả năng như đối thoại đa vòng bằng tiếng Trung và tiếng Anh, thực thi mã, duyệt web và gọi công cụ tùy chỉnh thông qua Function Call.
- Kiến trúc của GLM-4 9B dựa trên các tiến bộ mới nhất trong deep learning, tích hợp các kỹ thuật tiên tiến như cơ chế attention và kiến trúc transformer.
- Phiên bản cơ sở hỗ trợ cửa sổ ngữ cảnh lên đến 128.000 token, trong khi biến thể chuyên biệt cho phép độ dài ngữ cảnh ấn tượng 1 triệu token.
- GLM-4 9B nổi bật với khả năng hỗ trợ các tác vụ thị giác độ phân giải cao (lên đến 1198 x 1198 pixel) và xử lý đa dạng ngôn ngữ.
- Đánh giá trên nhiều bộ dữ liệu cho thấy GLM-4 9B vượt trội hơn mọi mô hình hiện có về độ chính xác tổng thể, vượt qua GPT-4, Gemini Pro (trong tác vụ thị giác), Mistral và Llama 3 8B.
- GLM-4 9B là mã nguồn mở và cho phép sử dụng thương mại (với một số điều kiện nhất định), mang lại nhiều cơ hội cho nhà phát triển, nhà nghiên cứu và doanh nghiệp.
- Các ứng dụng tiềm năng bao gồm xử lý ngôn ngữ tự nhiên, thị giác máy tính, tạo mã, v.v. Tích hợp liền mạch với thư viện Transformers giúp đơn giản hóa việc áp dụng và triển khai mô hình.

📌 GLM-4 9B của Đại học Thanh Hoa đánh dấu bước tiến quan trọng trong lĩnh vực mô hình ngôn ngữ với hiệu suất ấn tượng, khả năng đa ngôn ngữ và kiến trúc linh hoạt. Mô hình này thiết lập tiêu chuẩn mới cho các mô hình ngôn ngữ nguồn mở, mở đường cho những tiến bộ xa hơn trong xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo.

https://www.marktechpost.com/2024/06/05/meet-tsinghua-universitys-glm-4-9b-chat-1m-an-outstanding-language-model-challenging-gpt-4v-gemini-pro-on-vision-mistral-and-llama-3-8b/

Không có file đính kèm.

Nguồn tham khảo

131

AI mở-nguồn mở 2024-06-07 15:39:01

Qwen2 với 5 kích thước từ 0.5B đến 72B tham số, hỗ trợ 27 ngôn ngữ, hiệu suất vượt trội

- Qwen AI giới thiệu dòng mô hình ngôn ngữ Qwen2 gồm 5 kích cỡ từ 0.5B đến 72B tham số, được huấn luyện trên dữ liệu 27 ngôn ngữ ngoài tiếng Anh và tiếng Trung.
- Qwen2 đạt hiệu suất vượt trội trên nhiều bài đánh giá chuẩn, đặc biệt cải thiện đáng kể khả năng lập trình và toán học. Qwen2-72B vượt trội hơn Qwen1.5-110B dù có ít tham số hơn.
- Các mô hình hỗ trợ chiều dài ngữ cảnh lên đến 128,000 token với Qwen2-7B-Instruct và Qwen2-72B-Instruct. Qwen2-72B-Instruct có thể xử lý hoàn hảo các tác vụ trích xuất thông tin trong ngữ cảnh 128k token.
- Qwen2 được đánh giá cao về khả năng xử lý an toàn các truy vấn không an toàn đa ngôn ngữ, tương đương GPT-4 và vượt trội hơn Mistral-8x22B.
- Các mô hình Qwen2 đã được mở mã nguồn trên Hugging Face và ModelScope. Qwen2-72B vẫn sử dụng giấy phép Qianwen, các mô hình còn lại chuyển sang Apache 2.0 để thúc đẩy ứng dụng và thương mại hóa.
- Trong tương lai, Qwen AI sẽ huấn luyện các mô hình Qwen2 lớn hơn, mở rộng sang đa phương thức (vision, audio) và tiếp tục mở mã nguồn để thúc đẩy phát triển AI nguồn mở.

📌 Qwen AI đã ra mắt dòng mô hình ngôn ngữ Qwen2 với 5 kích thước từ 0.5B đến 72B tham số, hỗ trợ 27 ngôn ngữ. Qwen2 đạt hiệu suất vượt trội trên nhiều bài đánh giá, đặc biệt trong lập trình, toán học và xử lý ngữ cảnh dài lên đến 128,000 token. Các mô hình lớn như Qwen2-72B vượt trội hơn cả Qwen1.5-110B. Qwen2 cũng được đánh giá cao về khả năng xử lý an toàn, tương đương GPT-4. Hầu hết các mô hình Qwen2 đã được mở mã nguồn để thúc đẩy phát triển và ứng dụng AI nguồn mở. Trong tương lai, Qwen AI sẽ tiếp tục mở rộng Qwen2 lên các mô hình lớn hơn và hỗ trợ đa phương thức.

https://qwenlm.github.io/blog/qwen2/

Không có file đính kèm.

Nguồn tham khảo

184

AI mở-nguồn mở AI tools AI data 2024-06-06 23:13:58

PixelsDB: công cụ phân tích dữ liệu nguồn mở cho người dùng không chuyên SQL

- PixelsDB là một công cụ phân tích dữ liệu nguồn mở giúp người dùng không thành thạo SQL hoặc quản trị hệ thống tạo và gỡ lỗi các truy vấn SQL thông qua giao diện NLP.
- Các mô hình ngôn ngữ tinh vi chuyển đổi đầu vào của người dùng thành các truy vấn SQL có thể thực thi, cho phép người dùng tương tác với hệ thống và lấy thông tin dữ liệu cần thiết mà không cần nhiều kiến thức kỹ thuật.
- Các truy vấn được tạo ra sẽ được chạy bởi một công cụ truy vấn không máy chủ. PixelsDB cung cấp nhiều mức giá tùy thuộc vào mức độ khẩn cấp của truy vấn.
- Kiến trúc hệ thống được xây dựng để hỗ trợ các mức dịch vụ khác nhau thông qua thiết kế kiến trúc chuyên dụng và lập lịch tài nguyên dị nhất. Điều này cho phép hệ thống tối ưu hóa chi phí tổng thể mà không ảnh hưởng đến hiệu suất của các công việc quan trọng.
- Xử lý truy vấn không máy chủ, giao diện ngôn ngữ tự nhiên và các mức dịch vụ và giá cả tùy chỉnh của PixelsDB sẽ cải thiện đáng kể trải nghiệm người dùng trong phân tích dữ liệu.

📌 PixelsDB là một công cụ phân tích dữ liệu nguồn mở giúp người dùng không chuyên SQL khám phá dữ liệu hiệu quả thông qua giao diện NLP, xử lý truy vấn không máy chủ và các mức dịch vụ tùy chỉnh. Hệ thống loại bỏ rào cản kỹ thuật, cung cấp giao diện thân thiện để tạo và thực thi truy vấn, từ đó tăng tính hiệu quả và khả năng tiếp cận của phân tích dữ liệu cho người dùng phi kỹ thuật.

https://www.marktechpost.com/2024/06/06/pixelsdb-an-open-source-data-analytic-system-that-allows-users-without-sql-expertise-to-explore-data-efficiently/

Không có file đính kèm.

Nguồn tham khảo

166

AI mở-nguồn mở 2024-06-06 03:04:03

Skywork Team ra mắt Skywork-MOE: 146 tỷ tham số và hiệu suất vượt trội

- Skywork Team, thuộc Kunlun Inc., đã giới thiệu Skywork-MoE, một mô hình Mixture-of-Experts (MoE) hiệu suất cao với 146 tỷ tham số và 16 chuyên gia.
- Skywork-MoE được xây dựng dựa trên kiến trúc của mô hình Skywork-13B trước đó, sử dụng các điểm kiểm tra dày đặc làm thiết lập ban đầu.
- Mô hình này tích hợp hai kỹ thuật đào tạo mới: chuẩn hóa logit cổng và hệ số mất mát phụ trợ thích ứng, nhằm nâng cao hiệu suất và hiệu quả của mô hình.
- Skywork-MoE được đào tạo từ các điểm kiểm tra dày đặc của mô hình Skywork-13B, khởi tạo từ các mô hình dày đặc đã được đào tạo trước trên 3,2 nghìn tỷ token và tiếp tục đào tạo trên thêm 2 nghìn tỷ token.
- Kỹ thuật chuẩn hóa logit cổng đảm bảo phân phối đầu ra cổng rõ ràng, tăng cường sự đa dạng của các chuyên gia. Phương pháp này bao gồm việc chuẩn hóa các đầu ra của lớp cổng trước khi áp dụng hàm softmax, giúp đạt được phân phối sắc nét và tập trung hơn.
- Hệ số mất mát phụ trợ thích ứng cho phép điều chỉnh theo từng lớp, duy trì tải cân bằng giữa các chuyên gia và ngăn chặn bất kỳ chuyên gia nào bị quá tải. Các điều chỉnh này dựa trên việc giám sát tỷ lệ rơi token và điều chỉnh các hệ số tương ứng.
- Hiệu suất của Skywork-MoE được đánh giá trên nhiều tiêu chuẩn khác nhau. Mô hình đạt 82,2 điểm trên tiêu chuẩn CEVAL và 79,5 điểm trên tiêu chuẩn CMMLU, vượt qua mô hình Deepseek-67B.
- Trên tiêu chuẩn MMLU, Skywork-MoE đạt 77,4 điểm, cạnh tranh với các mô hình có dung lượng cao hơn như Qwen1.5-72B.
- Đối với các nhiệm vụ suy luận toán học, Skywork-MoE đạt 76,1 điểm trên GSM8K và 31,9 điểm trên MATH, vượt qua các mô hình như Llama2-70B và Mixtral 8*7B.
- Skywork-MoE thể hiện hiệu suất mạnh mẽ trong các nhiệm vụ tổng hợp mã với 43,9 điểm trên tiêu chuẩn HumanEval, vượt qua tất cả các mô hình dày đặc trong so sánh và chỉ thua kém một chút so với mô hình Deepseek-V2.
- Những kết quả này nhấn mạnh khả năng của mô hình trong việc xử lý hiệu quả các nhiệm vụ suy luận định lượng và logic phức tạp.

📌 Skywork-MoE, với 146 tỷ tham số và các phương pháp đào tạo tiên tiến, đã đạt được hiệu suất mạnh mẽ trên nhiều tiêu chuẩn, chứng minh hiệu quả của các kỹ thuật chuẩn hóa logit cổng và hệ số mất mát phụ trợ thích ứng. Mô hình này đặt ra một tiêu chuẩn mới cho hiệu quả và hiệu suất của các mô hình MoE trong xử lý ngôn ngữ quy mô lớn.

https://www.marktechpost.com/2024/06/05/skywork-team-introduces-skywork-moe-a-high-performance-mixture-of-experts-moe-model-with-146b-parameters-16-experts-and-22b-activated-parameters/

Không có file đính kèm.

Nguồn tham khảo

134

AI models AI mở-nguồn mở 2024-06-05 07:26:01

FineWeb của HuggingFace: bộ dữ liệu khổng lồ mới để huấn luyện các mô hình ngôn ngữ lớn

- HuggingFace giới thiệu FineWeb, một bộ dữ liệu toàn diện để nâng cao việc huấn luyện các mô hình ngôn ngữ lớn (LLM), với 15 nghìn tỷ token và 44TB dung lượng.
- FineWeb sử dụng 96 bản chụp CommonCrawl, một tổ chức phi lợi nhuận lưu trữ web từ năm 2007.
- Quá trình loại bỏ trùng lặp nghiêm ngặt sử dụng kỹ thuật MinHash giúp loại bỏ dữ liệu dư thừa, cải thiện hiệu suất mô hình.
- Các chiến lược lọc tiên tiến được áp dụng để loại bỏ nội dung chất lượng thấp, bao gồm phân loại ngôn ngữ, lọc URL, loại bỏ tài liệu có quá nhiều nội dung mẫu hoặc không kết thúc dòng bằng dấu câu.
- FineWeb-Edu, một tập con của FineWeb, tập trung vào nội dung giáo dục, được tạo ra bằng cách sử dụng chú thích tổng hợp từ Llama-3-70B-Instruct để đánh giá giá trị học thuật của 500.000 mẫu.
- Một bộ phân loại được huấn luyện trên các chú thích này sau đó được áp dụng cho toàn bộ tập dữ liệu để lọc ra nội dung không liên quan đến giáo dục.
- FineWeb đã được thử nghiệm kỹ lưỡng với nhiều tiêu chuẩn đánh giá, liên tục vượt trội hơn các bộ dữ liệu web mở quy mô khác.
- Hiệu suất của bộ dữ liệu được xác thực thông qua một loạt các tiêu chuẩn "tín hiệu sớm" sử dụng các mô hình nhỏ.
- FineWeb-Edu cho thấy sự cải thiện đáng kể, chứng minh hiệu quả của việc sử dụng chú thích tổng hợp để lọc nội dung giáo dục chất lượng cao.
- HuggingFace phát hành FineWeb đánh dấu một khoảnh khắc quan trọng trong cộng đồng khoa học mở, cung cấp cho các nhà nghiên cứu và người dùng một công cụ mạnh mẽ để huấn luyện các LLM hiệu suất cao.

📌 FineWeb, bộ dữ liệu 15 nghìn tỷ token và 44TB của HuggingFace, đặt ra tiêu chuẩn mới cho việc tiền huấn luyện các mô hình ngôn ngữ lớn. Với quá trình loại bỏ trùng lặp nghiêm ngặt và các chiến lược lọc tiên tiến, FineWeb và tập con FineWeb-Edu hứa hẹn cải thiện đáng kể hiệu suất của LLM trên nhiều tiêu chuẩn đánh giá. Việc phát hành FineWeb đánh dấu một bước tiến quan trọng trong cộng đồng khoa học mở.

https://www.marktechpost.com/2024/06/03/huggingface-releases-%F0%9F%8D%B7-fineweb-a-new-large-scale-15-trillion-tokens-44tb-disk-space-dataset-for-llm-pretraining/

Không có file đính kèm.

Nguồn tham khảo

179

AI mở-nguồn mở AI doanh nghiệp 2024-06-05 05:16:56

các mô hình AI "mở" gây hiểu lầm, điều này nguy hiểm cho các doanh nhân như thế nào?

- Hiện nay chưa có định nghĩa rõ ràng về các mô hình LLM nguồn mở hoàn toàn và thực sự. Cần có một Khung Công tác Mở Mô hình tiêu chuẩn.
- Nhiều mô hình tự nhận là "mở", nhưng chỉ một tập hợp con các thành phần được phát hành mở và sử dụng giấy phép hạn chế cho phần còn lại.
- Sự mơ hồ xung quanh "mở" thực sự cản trở tiến trình áp dụng AI, tạo ra sản phẩm và dịch vụ cho người dùng cuối. Nó tạo ra rủi ro pháp lý cho các doanh nhân.
- Ví dụ: Một công ty khởi nghiệp AI giả định tên "yet-another-chat-bot" sử dụng mô hình ngôn ngữ được đào tạo trước "llam-stral" trong nguyên mẫu của họ, nhưng sau đó phát hiện ra rằng giấy phép cấm rõ ràng việc sử dụng thương mại và tạo các tác phẩm phái sinh.
- Điều đúng đắn cần làm là "llam-stral" tuân thủ Khung Công tác Mở Mô hình và sử dụng giấy phép mở tiêu chuẩn như Apache 2.0 cho mã và CC-BY-4.0 cho trọng số và tập dữ liệu.
- Một mô hình hoàn toàn mở sẽ phát hành tất cả các thành phần, bao gồm dữ liệu đào tạo, mã, trọng số, kiến trúc, báo cáo kỹ thuật và mã đánh giá, tất cả đều ở dạng giấy phép cho phép.
- Các thành phần thiết yếu của một mô hình AI bao gồm: Dữ liệu đào tạo, Mã tiền xử lý dữ liệu, Kiến trúc mô hình, Tham số mô hình, Mã đào tạo, Mã đánh giá, Dữ liệu đánh giá, Tài liệu mô hình và Báo cáo kỹ thuật.

📌 Việc thiếu một định nghĩa rõ ràng về tính mở của các mô hình AI đang gây ra sự mơ hồ và rủi ro pháp lý cho các doanh nhân. Cần có một khung công tác tiêu chuẩn để đánh giá tính chất mở của mô hình, trong đó một mô hình hoàn toàn mở sẽ phát hành tất cả các thành phần thiết yếu dưới các giấy phép cho phép, thúc đẩy tính minh bạch, khả năng tái tạo và hợp tác trong phát triển và ứng dụng AI.

https://www.entrepreneur.com/science-technology/why-entrepreneurs-need-to-beware-of-misleading-open-ai/472948

Không có file đính kèm.

Nguồn tham khảo

113

AI cybersecurity AI mở-nguồn mở 2024-06-05 05:04:56

Chuyên gia an ninh mạng châu Âu cảnh báo AI nguồn mở là "nguy hiểm"

- Mikko Hypponen, chuyên gia an ninh mạng hàng đầu của Phần Lan, cảnh báo rằng AI nguồn mở là "nguy hiểm" và các mô hình lậu thích "ăn thịt Llama".
- Ông cho rằng lo ngại hiện tại về deepfake là quá mức, mặc dù các cuộc tấn công dựa trên AI đang xảy ra như lừa đảo tiền điện tử sử dụng deepfake của người nổi tiếng.
- Bằng chứng về "deepfake âm thanh" đã xuất hiện nhưng chưa thấy trong thời gian thực. Công nghệ cho phép lừa đảo có chủ đích sử dụng deepfake thời gian thực nhưng chưa có bằng chứng xảy ra.
- Tội phạm có thể sử dụng AI để thực hiện "lừa đảo sâu", tự động hóa quy mô lớn các vụ lừa đảo như lừa tình.
- Mô hình nguồn đóng có xu hướng có các rào cản và hạn chế về nội dung nhất định. Mô hình nguồn mở cũng có bộ lọc nội dung và giấy phép hạn chế ứng dụng nhưng tội phạm thường không quan tâm.
- Đã có các mô hình "lậu" và phần lớn chúng "ăn thịt Llama" vì đó là mô hình nguồn mở tốt nhất.
- Hypponen đề xuất giải pháp kỹ thuật lai giữa mã nguồn mở và ứng dụng rào cản nguồn đóng, nhưng nghi ngờ liệu cộng đồng nguồn mở có chấp nhận. Ông cũng không ủng hộ quy định.
- Mã độc mang mô hình ngôn ngữ lớn là "khả thi" nhưng chưa thấy, tuy nhiên WithSecure đã thấy mã độc gọi API của mô hình ngôn ngữ lớn.
- Tự động hóa hoàn toàn các chiến dịch mã độc "lẽ ra phải xảy ra rồi, nhưng chưa". Khi điều đó xảy ra, chúng ta sẽ có AI tốt chống lại AI xấu.
- Học máy và AI đã là một phần trong kho vũ khí của các công ty an ninh trong nhiều năm và họ có lợi thế.

📌 Mikko Hypponen cảnh báo AI nguồn mở là nguy hiểm vì các mô hình lậu có thể bỏ qua các hạn chế an toàn, đặc biệt chúng thích "ăn thịt Llama". Mặc dù lo ngại về deepfake hiện tại là quá mức, nhưng tội phạm có thể sử dụng AI để tự động hóa các cuộc tấn công quy mô lớn. Các công ty an ninh đã sử dụng AI trong nhiều năm và có lợi thế khi AI tốt đối đầu với AI xấu trong tương lai.

https://thenewstack.io/open-source-ai-is-dangerous-euro-cybersec-chief-warns/

Không có file đính kèm.

Nguồn tham khảo

152

AI mở-nguồn mở 2024-06-03 23:49:59

Top 12 bảng xếp hạng LLM đánh giá các mô hình AI hàng đầu

• Open LLM Leaderboard: Sử dụng Eleuther AI-Language Model Evaluation Harness để đánh giá mô hình trên 6 tác vụ, kiểm tra kỹ năng lập luận và kiến thức tổng quát.

• MTEB Leaderboard: Đánh giá embedding văn bản trên 8 tác vụ, 58 bộ dữ liệu và 112 ngôn ngữ. Cho thấy chưa có phương pháp embedding văn bản nào vượt trội trên mọi tác vụ.

• Big Code Models Leaderboard: So sánh các mô hình tạo mã đa ngôn ngữ trên HumanEval và MultiPL-E, đo lường độ chính xác, thông lượng và sử dụng bộ nhớ.

• SEAL Leaderboards: Sử dụng xếp hạng theo thang điểm Elo để so sánh hiệu suất mô hình trên nhiều bộ dữ liệu và ngôn ngữ dựa trên đánh giá của con người.

• Berkeley Function-Calling Leaderboard: Đánh giá khả năng gọi hàm và công cụ của LLM trên 2.000 cặp câu hỏi-hàm-câu trả lời đa dạng.

• Occiglot Euro LLM Leaderboard: Đánh giá mô hình trên 5 bài kiểm tra dịch, kiểm tra hiệu suất trên nhiều tác vụ và ngôn ngữ.

• LMSYS Chatbot Arena Leaderboard: Nền tảng mở xếp hạng LLM dựa trên hơn 1 triệu so sánh theo cặp của con người, sử dụng mô hình Bradley-Terry.

• Artificial Analysis LLM Performance Leaderboard: Đánh giá chất lượng và hiệu suất LLM trên các điểm cuối API serverless từ góc độ khách hàng.

• Open Medical LLM Leaderboard: Theo dõi, xếp hạng và đánh giá LLM về tác vụ trả lời câu hỏi y tế trên các bộ dữ liệu y tế đa dạng.

• Hughes Hallucination Evaluation Model Leaderboard: Đánh giá tần suất ảo giác trong tóm tắt tài liệu do LLM tạo ra bằng cách gán điểm ảo giác từ 0 đến 1.

• OpenVLM Leaderboard: Trình bày kết quả đánh giá của 63 mô hình Vision-Language trên 23 bài kiểm tra đa phương thức.

• 🤗 LLM-Perf Leaderboard: Đánh giá LLM về độ trễ, thông lượng, bộ nhớ và tiêu thụ năng lượng trên nhiều phần cứng, backend và tối ưu hóa.

📌 12 bảng xếp hạng LLM hàng đầu cung cấp đánh giá toàn diện về hiệu suất của các mô hình AI tiên tiến nhất trên nhiều tác vụ, ngôn ngữ và phần cứng. Các bảng xếp hạng này giúp theo dõi tiến bộ trong lĩnh vực, xác định các mô hình vượt trội và hướng dẫn cải tiến trong tương lai. Tính đến ngày 27/5/2024, các mô hình dẫn đầu bao gồm GPT-4, OpenFunctions-v2, Mistral-medium, Med-PaLM-2, Gemini và QwenVLPlus.

https://www.marktechpost.com/2024/06/02/top-12-trending-llm-leaderboards-a-guide-to-leading-ai-models-evaluation/

Không có file đính kèm.

Nguồn tham khảo

347

AI mở-nguồn mở AI cybersecurity 2024-06-03 23:45:12

Hugging Face Spaces: kho lưu trữ các ứng dụng AI của cộng đồng tạo ra và gửi, đã bị xâm nhập.

- Hugging Face Spaces, một kho lưu trữ các ứng dụng AI do cộng đồng người dùng tạo ra và gửi, đã bị xâm nhập.
- Tin tặc có thể đã truy cập trái phép vào một tập hợp các bí mật của Spaces.
- Hugging Face đã thu hồi các mã thông báo xác thực bị xâm phạm và thông báo cho những người bị ảnh hưởng qua email.
- Công ty khuyến nghị tất cả người dùng Hugging Face Spaces làm mới mã thông báo của họ và chuyển sang mã thông báo truy cập chi tiết.
- Hugging Face đang làm việc với các chuyên gia an ninh mạng bên ngoài để điều tra vụ vi phạm và báo cáo sự cố cho cơ quan thực thi pháp luật và cơ quan bảo vệ dữ liệu.
- Trong những ngày qua, công ty đã thắt chặt bảo mật cơ sở hạ tầng Spaces, bao gồm loại bỏ hoàn toàn mã thông báo tổ chức, triển khai dịch vụ quản lý khóa (KMS) cho các bí mật Spaces, tăng cường khả năng phát hiện và vô hiệu hóa proactively các mã thông báo bị rò rỉ.
- Khi Hugging Face ngày càng phổ biến, nó cũng trở thành mục tiêu cho các tác nhân đe dọa, những kẻ cố gắng lạm dụng nó cho các hoạt động độc hại.
- Vào tháng 2/2024, công ty bảo mật JFrog phát hiện khoảng 100 trường hợp các mô hình AI ML độc hại được sử dụng để thực thi mã độc trên máy nạn nhân.
- Gần đây, các nhà nghiên cứu bảo mật tại Wiz đã phát hiện một lỗ hổng cho phép họ tải lên các mô hình tùy chỉnh và tận dụng container escapes để truy cập chéo vào các mô hình của khách hàng khác.

📌 Vụ vi phạm bảo mật tại Hugging Face Spaces cho thấy các nền tảng AI đang ngày càng trở thành mục tiêu hấp dẫn cho tin tặc. Công ty đã nhanh chóng hành động để thu hồi mã thông báo bị xâm phạm, thông báo cho người dùng bị ảnh hưởng và tăng cường các biện pháp bảo mật. Tuy nhiên, sự cố này nhấn mạnh tầm quan trọng của việc giám sát liên tục và cập nhật bảo mật để bảo vệ dữ liệu nhạy cảm trên các nền tảng AI.

https://www.bleepingcomputer.com/news/security/ai-platform-hugging-face-says-hackers-stole-auth-tokens-from-spaces/

Không có file đính kèm.

Nguồn tham khảo

158

AI mở-nguồn mở AI cybersecurity 2024-06-03 23:40:45

Thế giới mã nguồn mở đang vật lộn với các vấn đề bảo mật và cấp phép cho AI tạo sinh như thế nào

- Sự trỗi dậy của AI tạo sinh đi kèm với cuộc tranh luận ngày càng tăng trong cộng đồng mã nguồn mở về tính minh bạch và đáng tin cậy của công nghệ này.
- Một báo cáo của Đại học Stanford cho thấy tính minh bạch của 10 nhà cung cấp mô hình lớn nhất chỉ đạt tối đa 54% cho Llama 2 của Meta, xuống còn 12% cho Titan Text của Amazon. GPT-4 của OpenAI xếp thứ ba với 48%.
- CNCF đã phát hành bản báo cáo AI, lưu ý "sự cần thiết phải xác định rõ ai sở hữu và có quyền truy cập vào dữ liệu" trong suốt vòng đời AI.
- Các thách thức liên quan đến việc tạo ra các mô hình mở cho phép các nhà phát triển xây dựng dựa trên và điều chỉnh công việc trước đó. Điều này thường bao gồm khả năng sao chép dữ liệu đào tạo và mã đào tạo.
- Các nỗ lực đang được tiến hành để xác định các tiêu chuẩn thông qua nhiều dự án của ngành và cộng đồng như Linux Foundation, CNCF, AI Alliance.
- Red Hat đã tham gia vào một sáng kiến để giải quyết các phức tạp pháp lý trong AI thông qua nỗ lực chủ động thu hút cộng đồng nhà phát triển và thúc đẩy niềm tin trong hệ sinh thái nguồn mở.
- Nền tảng tự động hóa Ansible của Red Hat đã được chứng minh là một nguồn lực hữu ích để có được sự rõ ràng tốt hơn về tình trạng cấp phép mô hình.
- Một lỗ hổng bảo mật tiềm ẩn đã được phát hiện trong phần mềm nén dữ liệu XZ Utils thường được sử dụng trong các bản phân phối Linux, làm nổi bật sự khó khăn trong việc xác minh an ninh của mọi đóng góp mã trong tinh thần cộng đồng mã nguồn mở.

📌 Sự trỗi dậy của AI tạo sinh đã dẫn đến cuộc tranh luận ngày càng tăng trong cộng đồng mã nguồn mở về tính minh bạch và đáng tin cậy. Các báo cáo chỉ ra rằng tính minh bạch của các mô hình AI hàng đầu còn hạn chế, chỉ đạt tối đa 54%. Ngành công nghiệp và cộng đồng đang nỗ lực xác định các tiêu chuẩn cho các mô hình AI mở. Tuy nhiên, các mối đe dọa bảo mật như lỗ hổng trong Linux kernel đã làm nổi bật thách thức trong việc xác minh an ninh của mọi đóng góp mã.

https://siliconangle.com/2024/06/02/open-source-world-wrestling-security-licensing-issues-generative-ai/

Không có file đính kèm.

Nguồn tham khảo

234

AI mở-nguồn mở 2024-06-03 05:47:17

K2: mô hình ngôn ngữ lớn mã nguồn mở vượt qua Llama 2 70B với ít tài nguyên hơn 35%

- K2-65B là mô hình ngôn ngữ lớn với 65 tỷ tham số, hoàn toàn có thể tái tạo và mã nguồn mở.
- Được phát triển bởi LLM360 với sự hợp tác của MBZUAI và Petuum.
- Mức độ minh bạch cao, với tất cả các thành phần như mã nguồn, dữ liệu, checkpoint mô hình và kết quả trung gian đều được công khai.
- Cung cấp cái nhìn rõ ràng về quy trình phát triển và các chỉ số hiệu suất.
- Có sẵn theo giấy phép Apache 2.0, thúc đẩy sử dụng rộng rãi và phát triển thêm bởi cộng đồng.
- LLM360 cung cấp bộ đánh giá mạnh mẽ cho K2, bao gồm các benchmark chung và chuyên biệt như y tế, toán học và lập trình.
- Được huấn luyện sử dụng các bộ dữ liệu đa dạng như dm-math, PubMed-abstracts, uspto, tổng cộng 1,3 nghìn tỷ token.
- Đạt được kết quả tương đương với mô hình Llama 2 70B.
- Các checkpoint trung gian của K2 được công khai, cho phép theo dõi sự phát triển và cải tiến theo thời gian.
- Cung cấp hướng dẫn để tái tạo quá trình tiền huấn luyện và tinh chỉnh.
- LLM360 là phòng thí nghiệm nghiên cứu mở, hướng tới phát triển trí tuệ nhân tạo tổng quát (AGI) thuộc sở hữu cộng đồng thông qua nghiên cứu và phát triển mô hình ngôn ngữ lớn mã nguồn mở.

📌 K2 đặt ra tiêu chuẩn mới cho sự phát triển mô hình ngôn ngữ lớn với tính minh bạch cao, hiệu suất vượt trội và khung phát triển mạnh mẽ. Với 65 tỷ tham số, K2 vượt qua Llama 2 70B trong khi chỉ sử dụng 65% tài nguyên tính toán. Thông qua hợp tác mã nguồn mở và đánh giá toàn diện, K2 đảm bảo các thực tiễn đạo đức và khả năng tiếp cận rộng rãi cho các đổi mới trong tương lai của AI.

https://www.marktechpost.com/2024/06/01/llm360-introduces-k2-a-fully-reproducible-open-sourced-large-language-model-efficiently-surpassing-llama-2-70b-with-35-less-computational-power/

Không có file đính kèm.

Nguồn tham khảo

108

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-06-02 16:05:56

Llama3-V vượt trội so với GPT-3.5 và GPT-4 với mô hình nhỏ gọn và chi phí huấn luyện dưới 500 USD

- Llama3-V là một mô hình đa phương thức dựa trên Llama3, được huấn luyện với chi phí dưới 500 đô la.
- Mô hình tích hợp thông tin hình ảnh bằng cách nhúng ảnh đầu vào thành các embedding patch sử dụng mô hình SigLIP.
- Các embedding này được căn chỉnh với token văn bản thông qua khối projection sử dụng các khối self-attention, đặt embedding hình ảnh và văn bản trên cùng một mặt phẳng.
- Token hình ảnh được thêm vào trước token văn bản và biểu diễn kết hợp được xử lý qua Llama3.
- SigLIP sử dụng sigmoid loss cho từng cặp ảnh-văn bản, chia ảnh thành các patch không chồng lấp, chiếu chúng vào không gian embedding có chiều thấp hơn và áp dụng self-attention.
- Để tối ưu hóa tài nguyên tính toán, Llama3-V sử dụng cơ chế lưu trữ đệm để tính toán trước các embedding ảnh SigLIP và tận dụng các tối ưu hóa MPS/MLX.
- Quá trình tiền huấn luyện sử dụng 600.000 cặp ảnh-văn bản, chỉ cập nhật ma trận projection. Tinh chỉnh có giám sát sử dụng 1 triệu mẫu, tập trung vào ma trận vision và projection.
- Llama3-V đạt mức tăng hiệu suất 10-20% so với Llava, mô hình hàng đầu về hiểu biết đa phương thức, và có hiệu suất tương đương với các mô hình nguồn đóng lớn hơn nhiều trên hầu hết các chỉ số, ngoại trừ MMMU.

📌 Llama3-V thể hiện những tiến bộ đáng kể trong AI đa phương thức, vượt trội hơn Llava 10-20% và sánh ngang với các mô hình nguồn đóng lớn hơn trên hầu hết các chỉ số. Với việc tích hợp SigLIP để nhúng ảnh hiệu quả và các tối ưu hóa tính toán, Llama3-V tối đa hóa việc sử dụng GPU và giảm chi phí huấn luyện, thiết lập nó như một mô hình SOTA cạnh tranh và hiệu quả cho hiểu biết đa phương thức.

https://www.marktechpost.com/2024/05/31/llama3-v-a-sota-open-source-vlm-model-comparable-performance-to-gpt4-v-gemini-ultra-claude-opus-with-a-100x-smaller-model/

Không có file đính kèm.

Nguồn tham khảo

237

AI mở-nguồn mở AI nhỏ 2024-06-02 07:40:37

MAP-Neo: mô hình ngôn ngữ lớn song ngữ đầu tiên hoàn toàn minh bạch và mã nguồn mở, đạt hiệu suất vượt trội ngang ngửa các mô hình thương mại hàng đầu

- MAP-Neo là mô hình ngôn ngữ song ngữ lớn với 7 tỷ tham số, được huấn luyện trên 4.5 nghìn tỷ token chất lượng cao, do các nhà nghiên cứu từ M-A-P, Đại học Waterloo, Viện nghiên cứu AI Vũ Hán và 01.AI phát triển. Đây là mô hình LLM song ngữ đầu tiên được công bố hoàn toàn mã nguồn mở và minh bạch.

- MAP-Neo đạt hiệu suất tương đương hoặc vượt trội so với các mô hình LLM thương mại hàng đầu hiện nay như GPT, Gemini, Claude trong nhiều tác vụ như hiểu ngôn ngữ, lập luận, tri thức và lập trình.

- Tất cả các chi tiết cần thiết để tái tạo lại MAP-Neo đều được công bố đầy đủ, bao gồm: tập dữ liệu tiền huấn luyện đã qua làm sạch với 4.5 nghìn tỷ token, pipeline làm sạch dữ liệu, các checkpoint mô hình trung gian và cuối cùng, cùng với framework huấn luyện/đánh giá đã được tối ưu hóa.

- So với các mô hình mã nguồn mở khác như Mistral, LLaMA3, Pythia, Amber và OLMo, MAP-Neo tích hợp nhiều cải tiến vượt trội như các checkpoint trung gian, quy trình làm sạch dữ liệu toàn diện, tập dữ liệu tiền huấn luyện có thể truy cập dễ dàng và mã tái tạo đầy đủ.

- Trong các bài kiểm tra chuẩn về hiểu ngôn ngữ tiếng Trung và tiếng Anh (C-EVAL, MMLU), khả năng toán học (GSM8K) và lập trình (HumanEval), MAP-Neo đạt điểm số rất cao, vượt qua nhiều mô hình khác. Điều này cho thấy MAP-Neo thiết lập một tiêu chuẩn mới về tính minh bạch và hiệu suất cho các mô hình ngôn ngữ lớn.

- Bộ mã hóa (tokenizer) của MAP-Neo được huấn luyện bằng phương pháp mã hóa cặp byte (BPE) thông qua công cụ SentencePiece trên 50 tỷ mẫu văn bản, với độ dài tối đa 64,000 token. Kích thước từ vựng là 64,000 từ với độ dài tối đa của mỗi đoạn văn bản là 16 token. Các con số được mã hóa thành từng chữ số riêng lẻ.

- Việc ưu tiên dữ liệu mã nguồn, toán học và học thuật trong quá trình tiền huấn luyện giúp MAP-Neo đạt hiệu suất cao trong các tác vụ liên quan. Hiệu suất của bộ mã hóa có sự khác biệt tùy thuộc vào ngôn ngữ và nguồn dữ liệu.

- Việc công bố đầy đủ mô hình MAP-Neo mang lại nhiều lợi ích như giảm chi phí triển khai, đặc biệt cho các LLM tiếng Trung. Điều này thúc đẩy sự bao quát trong đổi mới AI, giảm sự thống trị của các LLM tiếng Anh và giải quyết vấn đề "chủ nghĩa thực dân dữ liệu" do các công ty lớn chi phối.

📌 MAP-Neo đánh dấu một cột mốc quan trọng với tư cách là mô hình ngôn ngữ lớn song ngữ đầu tiên được công bố hoàn toàn mã nguồn mở và minh bạch. Với 7 tỷ tham số, MAP-Neo được huấn luyện trên 4.5 nghìn tỷ token dữ liệu chất lượng cao, đạt hiệu suất vượt trội ngang ngửa với các mô hình thương mại hàng đầu trong nhiều tác vụ quan trọng. Tính minh bạch và khả năng tái tạo đầy đủ của MAP-Neo mở ra tiềm năng to lớn cho cộng đồng nghiên cứu AI toàn cầu, thúc đẩy sự bao quát và giảm sự phụ thuộc vào các mô hình đóng, đặc biệt có ý nghĩa với các quốc gia và khu vực không sử dụng tiếng Anh.

https://www.marktechpost.com/2024/05/31/map-neo-a-fully-open-source-and-transparent-bilingual-llm-suite-that-achieves-superior-performance-to-close-the-gap-with-closed-source-models/

Không có file đính kèm.

Nguồn tham khảo

164

AI mở-nguồn mở AI coding assistant 2024-05-30 08:00:48

Mistral giới thiệu Codestral, mô hình AI đầu tiên tập trung vào lập trình hỗ trợ hơn 80 ngôn ngữ

- Mistral, startup AI ở Paris vừa ra mắt Codestral, mô hình ngôn ngữ lớn (LLM) 22B parameter đầu tiên tập trung vào các tác vụ lập trình.

- Codestral hỗ trợ hơn 80 ngôn ngữ lập trình phổ biến như Python, Java, C++, SQL và các ngôn ngữ chuyên biệt hơn như Swift, Fortran.

- Mô hình có thể tạo code từ đầu, hoàn thiện các hàm, viết test và điền vào code dở dang, giúp các lập trình viên tăng tốc quy trình làm việc, tiết kiệm thời gian và giảm lỗi.

- Theo Mistral, Codestral đã vượt trội hơn các mô hình lập trình hiện có như CodeLlama 70B, Deepseek Coder 33B trên hầu hết các ngôn ngữ lập trình trong các bài đánh giá như RepoBench, HumanEval, CruxEval.

- Nhiều công cụ phát triển phần mềm và xây dựng ứng dụng AI như LlamaIndex, LangChain, JetBrains đã bắt đầu thử nghiệm Codestral.

- Mistral cung cấp Codestral 22B trên Hugging Face dưới giấy phép phi thương mại của riêng họ cho mục đích nghiên cứu, thử nghiệm. Mô hình cũng có sẵn qua 2 API endpoint.

- Codestral sẽ cạnh tranh với các mô hình lập trình khác như StarCoder2, Codex của OpenAI, CodeWhisper của Amazon, ChatGPT, GPT-4 của OpenAI và các mô hình của Replit, Codenium.

📌 Codestral 22B, mô hình AI đầu tiên tập trung vào lập trình của Mistral, hỗ trợ hơn 80 ngôn ngữ, giúp đẩy nhanh phát triển phần mềm. Mô hình đã vượt trội hơn CodeLlama 70B, Deepseek Coder 33B trong các bài đánh giá và đang được nhiều công cụ như LangChain, JetBrains thử nghiệm. Tuy nhiên, Codestral sẽ phải cạnh tranh gay gắt với StarCoder2, Codex, CodeWhisper và các mô hình từ Replit, Codenium.

https://venturebeat.com/ai/mistral-announces-codestral-its-first-programming-focused-ai-model/

Không có file đính kèm.

Nguồn tham khảo

165

AI mở-nguồn mở 2024-05-29 23:19:44

Ấn Độ nên tận dụng AI mã nguồn mở để giải quyết vấn đề thực tế

- Mô hình Aksara AI của Cropin được xây dựng dựa trên mô hình mã nguồn mở Mistral-7B-v0.1, nhằm dân chủ hóa kiến thức nông nghiệp để trao quyền cho nông dân.

- Các mô hình như OpenHathi và Tamil LLaMA được xây dựng trên các mô hình mã nguồn mở, cố gắng phá vỡ rào cản ngôn ngữ.

- Ấn Độ nên tập trung vào việc sử dụng AI để tạo ra sự khác biệt trong cuộc sống của mọi người, thay vì chạy đua xây dựng các mô hình ngôn ngữ lớn (LLM) tiếp theo.

- Với 22 ngôn ngữ chính thức và hàng trăm phương ngữ, AI mã nguồn mở giúp giải quyết thách thức này ở Ấn Độ thông qua các tính năng cốt lõi của nó.

- Ấn Độ có thể sử dụng MoE (Mixture of Experts) để kết hợp các mô hình dành riêng cho ngôn ngữ như Tamil LLaMA và Kannada LLaMA để tạo ra một mô hình đa ngôn ngữ chạy trên tài nguyên tối thiểu.

- Các mô hình LLM mã nguồn mở như BLOOM và IndicBERT đã được đào tạo trước ở nhiều ngôn ngữ Ấn Độ, giúp đẩy nhanh việc phát triển các LLM đa ngôn ngữ.

- Chi phí đào tạo một mô hình lớn như GPT-3 từ đầu ước tính từ 4 đến 10 triệu USD trở lên, trong khi một số mô hình ngang bằng hoặc tốt hơn GPT-3 lại miễn phí.

- Các nhà khoa học dữ liệu dành gần 50% thời gian để làm sạch dữ liệu, đặc biệt là khi xử lý nhiều ngôn ngữ và phương ngữ Ấn Độ với những đặc thù riêng.

- Sử dụng mô hình mã nguồn mở với dữ liệu được đào tạo trước giúp tiết kiệm rất nhiều thời gian để xây dựng các ứng dụng hữu ích xung quanh nó.

- Khi làm việc với mô hình mã nguồn mở, người dùng trên toàn thế giới có thể đóng góp vào dự án của bạn với các bộ dữ liệu chưa từng có trong danh sách của bạn, giúp nó mạnh mẽ hơn nhiều so với mô hình nguồn đóng.

📌 Ấn Độ nên song song xây dựng AI từ đầu và tận dụng các mô hình LLM mã nguồn mở để giải quyết các vấn đề thực tế. Điều này giúp tiết kiệm chi phí từ 4-10 triệu USD, thời gian làm sạch 50% dữ liệu và khắc phục rào cản 22 ngôn ngữ chính thức cùng hàng trăm phương ngữ, đồng thời thúc đẩy hệ sinh thái AI Ấn Độ phát triển.

https://analyticsindiamag.com/open-source-is-a-good-start-for-india/

Không có file đính kèm.

Nguồn tham khảo

127

AI mở-nguồn mở 2024-05-29 08:01:40

Perplexica - công cụ tìm kiếm AI mã nguồn mở thế hệ mới với nhiều tính năng đột phá

- Perplexica là công cụ tìm kiếm AI mã nguồn mở, sử dụng các thuật toán học máy tiên tiến và mô hình ngôn ngữ lớn để cung cấp kết quả tìm kiếm chính xác và sâu sắc.

- Nó hiểu được ý nghĩa ngữ nghĩa đằng sau truy vấn của người dùng nhờ các thuật toán tìm kiếm tương đồng và embedding, giúp kết quả tìm kiếm phù hợp hơn.

- Perplexica có nhiều chế độ tìm kiếm chuyên biệt như: Chế độ Copilot (đang phát triển), Chế độ thông thường, Chế độ tìm kiếm học thuật, Chế độ tìm kiếm YouTube, Chế độ tìm kiếm Wolfram Alpha, Chế độ tìm kiếm Reddit.

- Nó tích hợp công cụ tìm kiếm SearxNG để luôn cung cấp thông tin mới nhất và phù hợp nhất, đồng thời ưu tiên quyền riêng tư của người dùng.

- Perplexica có giao diện web trực quan, dễ sử dụng, hỗ trợ tìm kiếm đa dạng nội dung như hình ảnh, video. Người dùng có thể quản lý lịch sử tìm kiếm và tùy chỉnh cài đặt theo ý muốn.

- Kiến trúc của Perplexica bao gồm: Giao diện người dùng, các Agent/Chains dự đoán hành động tiếp theo, công cụ tìm kiếm SearXNG, các mô hình ngôn ngữ lớn (LLMs) và mô hình embedding.

- Perplexica phù hợp với nhiều ứng dụng từ môi trường doanh nghiệp đến sử dụng cá nhân. Tính chất mã nguồn mở của nó mở ra khả năng cộng đồng đóng góp cải tiến.

📌 Perplexica là một bước tiến lớn trong lĩnh vực công cụ tìm kiếm, kết hợp công nghệ AI tiên tiến với cam kết minh bạch và bảo mật. Với nhiều tính năng đột phá và thiết kế lấy người dùng làm trung tâm, Perplexica hứa hẹn sẽ cách mạng hóa cách chúng ta khám phá tri thức trong kỷ nguyên số.

Citations:
[1] https://www.geeky-gadgets.com/?p=428326

Không có file đính kèm.

Nguồn tham khảo

118

AI mở-nguồn mở 2024-05-29 07:53:46

Cách tinh chỉnh các mô hình Mistral AI bằng ứng dụng mới Mistral FineTune

- Nhóm phát triển tại Mistral AI đã phát hành hướng dẫn chính thức về cách sử dụng ứng dụng Mistral FineTune để tinh chỉnh các mô hình AI của họ.
- Mistral FineTune là một công cụ mạnh mẽ giúp đơn giản hóa quá trình tinh chỉnh, sử dụng kỹ thuật LoRA để giảm số lượng trọng số bổ sung cần thiết xuống chỉ còn 1-2%.
- Để tinh chỉnh hiệu quả, cần chuẩn bị dữ liệu đúng cách ở định dạng JSONL, tùy chỉnh theo từng tác vụ huấn luyện cụ thể.
- Cấu hình môi trường huấn luyện thông qua file YAML, bao gồm đường dẫn đến dữ liệu huấn luyện, tham số LoRA và các siêu tham số liên quan.
- Sau khi chuẩn bị dữ liệu và cấu hình, tiến hành huấn luyện bằng cách tải mô hình, thiết lập phần cứng phù hợp và chạy job huấn luyện.
- Sử dụng Mistral Inference để tạo dự đoán và đánh giá hiệu suất của mô hình đã tinh chỉnh.
- Một số lời khuyên để đạt kết quả tốt nhất: chuẩn bị kỹ dữ liệu, sử dụng tập kiểm tra riêng, tuân thủ cài đặt phần cứng và cấu hình được đề xuất.

📌 Mistral FineTune là công cụ mạnh mẽ giúp tinh chỉnh các mô hình AI của Mistral một cách hiệu quả. Bằng cách tuân theo hướng dẫn toàn diện, chuẩn bị dữ liệu chất lượng cao, cấu hình môi trường huấn luyện phù hợp và áp dụng các phương pháp hay nhất, người dùng có thể tận dụng tối đa tiềm năng của các mô hình Mistral AI, thích ứng chúng với miền, tác vụ hoặc ứng dụng cụ thể để đạt được hiệu suất vượt trội.

https://www.geeky-gadgets.com/?p=428317

Không có file đính kèm.

Nguồn tham khảo

136

AI mở-nguồn mở 2024-05-29 07:25:04

ibm hợp tác với ai singapore nâng cấp mô hình ngôn ngữ lớn sea-lion

- Công ty điện toán đám mây toàn cầu IBM đang hợp tác với AI Singapore (AISG) để đánh giá và nâng cao mô hình ngôn ngữ lớn (LLM) Sea-Lion thông qua nền tảng AI tạo sinh Watsonx.
- IBM sẽ tích hợp mô hình Sea-Lion vào thư viện Digital Self-Serve Co-Create Experience, cho phép các nhà khoa học dữ liệu và kỹ sư làm việc với các nền tảng AI tạo sinh địa phương hóa.
- AISG cũng sẽ được IBM hỗ trợ kỹ thuật để cải tiến Sea-Lion.
- Đổi lại, sự hợp tác giúp IBM tiếp cận một LLM được huấn luyện bằng ngôn ngữ và sắc thái địa phương của Đông Nam Á.
- IBM sẽ tận dụng hệ sinh thái kinh doanh và công nghệ rộng lớn để giúp các tổ chức và công dân ASEAN nhận ra giá trị mà các mô hình tùy chỉnh như Sea-Lion và Watsonx mang lại.
- Hai bên cũng sẽ tích hợp quản trị AI vào Sea-Lion để giúp doanh nghiệp quản lý tuân thủ và rủi ro AI trong bối cảnh các quy định về sử dụng công nghệ này ngày càng gia tăng.
- Đây không phải lần đầu tiên một gã khổng lồ công nghệ toàn cầu hợp tác với AISG. Vào tháng 3, Google Research đã công bố một sự hợp tác tương tự.
- Sự quan tâm này xuất hiện khi các công ty đang chạy đua để thiết lập một LLM có thể cạnh tranh với ChatGPT-4 của OpenAI, ra mắt đầu tháng này.

📌 IBM và AI Singapore bắt tay hợp tác nâng cấp mô hình ngôn ngữ lớn Sea-Lion thông qua nền tảng Watsonx. Sự hợp tác giúp IBM tiếp cận LLM được huấn luyện với ngôn ngữ Đông Nam Á, đồng thời tích hợp quản trị AI vào Sea-Lion. Đây là một phần trong cuộc đua phát triển các mô hình ngôn ngữ lớn để cạnh tranh với ChatGPT-4 của OpenAI.

https://www.techinasia.com/ibm-ai-singapore-collaborate-improve-sea-lion-model

Không có file đính kèm.

Nguồn tham khảo

134

AI smartphone AI mở-nguồn mở 2024-05-28 10:14:20

Octopus v2 của Stanford vượt trội GPT-4, chạy được trên điện thoại, nhanh hơn 36 lần so với Llama7B + RAG

- Octopus v2 của các nhà nghiên cứu Stanford có 2 tỷ tham số, chạy được trên smartphone, ô tô, PC, vượt trội GPT-4 về độ chính xác và độ trễ, giảm 95% độ dài ngữ cảnh.

- Octopus v2 nhanh hơn 36 lần so với phương pháp Llama7B + RAG, đạt 2000 lượt tải xuống chỉ sau 1 đêm ra mắt.

- Mô hình sử dụng chiến lược token hàm độc đáo trong huấn luyện và suy luận, giúp đạt hiệu năng tương đương GPT-4 và cải thiện tốc độ suy luận vượt trội so với các phương pháp dựa trên RAG.

- Tập dữ liệu huấn luyện được tạo qua 3 giai đoạn: tạo truy vấn liên quan và tham số gọi hàm, tạo truy vấn không liên quan từ các thành phần hàm phù hợp, xác minh nhị phân qua Google Gemini.

- Nghiên cứu sử dụng mô hình Google Gemma-2B làm mô hình tiền huấn luyện, áp dụng 2 phương pháp huấn luyện là huấn luyện mô hình đầy đủ và huấn luyện mô hình LoRA.

- Trong các bài kiểm tra, Octopus v2 nhanh hơn 36 lần so với "giải pháp Llama7B + RAG" trên 1 GPU A100 đơn, nhanh hơn 168% so với GPT-4 turbo.

- Octopus v2 cũng vượt trội về độ chính xác gọi hàm, cao hơn 31% so với "giải pháp Llama7B + RAG", đạt độ chính xác tương đương GPT-4 và RAG + GPT-3.5.

📌 Octopus v2 với 2 tỷ tham số của Stanford đã vượt trội GPT-4 về tốc độ suy luận và độ chính xác, có thể chạy trên các thiết bị biên như smartphone. Mô hình đạt 2000 lượt tải chỉ sau 1 đêm, mở ra kỷ nguyên của các agent AI từ cốt lõi chạy trên thiết bị người dùng.

https://levelup.gitconnected.com/better-than-gpt-4-the-stanford-teams-large-model-that-can-be-run-on-mobile-phones-became-popular-bc958501ec01

https://arxiv.org/abs/2404.01744

https://huggingface.co/NexaAIDev/Octopus-v2

Không có file đính kèm.

Nguồn tham khảo

210

AI ngân hàng-tài chính AI mở-nguồn mở 2024-05-28 07:39:52

FinRobot: nền tảng AI agent mã nguồn mở mới hỗ trợ nhiều AI chuyên biệt tài chính được cung cấp sức mạnh bởi LLM

- FinRobot là một nền tảng AI agent mã nguồn mở được phát triển bởi AI4Finance Foundation phối hợp với các tổ chức như Đại học Columbia và NYU Shanghai. Nó tận dụng các mô hình ngôn ngữ lớn (LLM) để thực hiện phân tích tài chính nâng cao.

- Kiến trúc của FinRobot được chia thành 4 lớp chính: Financial AI Agents Layer (tập trung vào việc chia nhỏ các vấn đề tài chính phức tạp thành các chuỗi logic), Financial LLM Algorithms Layer (cấu hình và sử dụng các mô hình được tinh chỉnh đặc biệt phù hợp với các lĩnh vực cụ thể và phân tích thị trường toàn cầu), LLMOps and DataOps Layer (tạo ra các mô hình chính xác bằng cách áp dụng các kỹ thuật đào tạo, tinh chỉnh và sử dụng dữ liệu liên quan đến tác vụ), Multi-source LLM Foundation Models Layer (tích hợp các LLM khác nhau, cho phép các lớp trên truy cập trực tiếp).

- Nền tảng giải quyết các thách thức quan trọng như tính minh bạch, khả năng thích ứng với thị trường toàn cầu và xử lý dữ liệu thời gian thực. Ví dụ, Financial AI Agents Layer tăng cường khả năng phân tích và ra quyết định phức tạp bằng cách sử dụng CoT prompting để chia nhỏ các thách thức tài chính thành các bước logic.

- Hai ứng dụng demo là Market Forecaster (tổng hợp tin tức thị trường gần đây và dữ liệu tài chính để đưa ra những hiểu biết sâu sắc về thành tựu mới nhất và mối quan tâm tiềm năng của một công ty) và Document Analysis & Generation (sử dụng các AI agent để phân tích các tài liệu tài chính như báo cáo thường niên và tạo ra các báo cáo chi tiết, sâu sắc).

- FinRobot tăng cường khả năng tiếp cận, hiệu quả và tính minh bạch trong các hoạt động tài chính bằng cách tích hợp các LLM đa nguồn trong một nền tảng mã nguồn mở. Nó đẩy nhanh sự đổi mới trong cộng đồng AI tài chính và thiết lập các tiêu chuẩn mới cho phân tích tài chính dựa trên AI.

📌 FinRobot là một nền tảng AI mã nguồn mở đột phá hỗ trợ nhiều AI agent chuyên biệt về tài chính, sử dụng sức mạnh của các mô hình ngôn ngữ lớn (LLM). Với kiến trúc đa lớp tiên tiến, khả năng xử lý dữ liệu thời gian thực và tích hợp mô hình đa dạng, FinRobot cải thiện đáng kể việc ra quyết định chiến lược trên toàn lĩnh vực tài chính, giúp các công cụ tài chính tinh vi trở nên dễ tiếp cận hơn với đông đảo người dùng.

https://www.marktechpost.com/2024/05/26/finrobot-a-novel-open-source-ai-agent-platform-supporting-multiple-financially-specialized-ai-agents-powered-by-llms/

Không có file đính kèm.

Nguồn tham khảo

176

AI mở-nguồn mở 2024-05-26 08:36:57

AmbientGPT: công cụ nguồn mở đa phương thức trên MacOS tích hợp liền mạch AI vào quy trình làm việc

- AmbientGPT là một công cụ nguồn mở trên MacOS giúp tích hợp liền mạch các mô hình nền tảng AI vào quy trình làm việc hàng ngày.
- Công cụ này tự động suy luận ngữ cảnh màn hình như một phần của quá trình truy vấn, loại bỏ nhu cầu tải lên ngữ cảnh thủ công.
- AmbientGPT tích hợp liền mạch vào quy trình làm việc hiện có, cung cấp cách trực quan và hiệu quả hơn để tận dụng sức mạnh của các mô hình nền tảng.
- Công cụ sử dụng các thuật toán tiên tiến để phân tích chính xác và sử dụng ngữ cảnh, đảm bảo phản hồi của AI chính xác và phù hợp.
- AmbientGPT hỗ trợ chạy các mô hình cục bộ an toàn như Gemma và Phi-3 multimodal. Cần ít nhất 16 GB RAM để đạt hiệu suất tối ưu.
- Kết quả cho thấy AmbientGPT tăng 40% hiệu quả công việc và giảm 50% thời gian nhập dữ liệu thủ công.
- Phản hồi của người dùng cho thấy sự hài lòng cao với khả năng cung cấp phản hồi phù hợp với ngữ cảnh mà không cần nhập liệu liên tục.
- Việc tích hợp vllm và ollama sẽ tiếp tục nâng cao khả năng của AmbientGPT, biến nó thành giải pháp toàn diện cho việc triển khai suy luận AI.

📌 AmbientGPT đánh dấu bước tiến trong ứng dụng thực tế của AI, tăng 40% hiệu quả công việc và giảm 50% thời gian nhập liệu thủ công. Với khả năng tự động phân tích ngữ cảnh màn hình, công cụ này hứa hẹn sẽ cách mạng hóa cách các mô hình nền tảng được sử dụng, đồng thời tích hợp liền mạch AI vào quy trình làm việc trên MacOS.

https://www.marktechpost.com/2024/05/24/ambientgpt-an-open-source-and-multimodal-macos-foundation-model-gui/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2024-05-25 15:28:22

Mistral và Cohere tung ra mô hình AI đỉnh cao: Không kiểm duyệt, đa ngôn ngữ, đe dọa các ông lớn

- Mistral, công ty nghiên cứu AI của Pháp, đã ra mắt bản nâng cấp lớn cho mô hình ngôn ngữ lớn nguồn mở Mistral 7B v0.3 mà không cần thông báo chính thức.

Mistral 7B v0.3 có một số cải tiến đáng chú ý:

- Không bị kiểm duyệt theo mặc định: Mô hình sẽ đưa ra cảnh báo khi được yêu cầu cung cấp thông tin nguy hiểm hoặc bất hợp pháp, nhưng vẫn cung cấp câu trả lời đầy đủ.

- Mở rộng kích thước ngữ cảnh token lên 32.768: Cho phép mô hình xử lý một phạm vi rộng hơn các từ và cụm từ trong ngữ cảnh, cải thiện hiệu suất trên các văn bản đa dạng. So sánh với Meta Llama có kích thước ngữ cảnh token 8K nhưng bộ từ vựng lớn hơn nhiều ở mức 128K.

- Tokenizer hiệu quả hơn: Phiên bản mới của bộ tokenizer Mistral cung cấp khả năng xử lý và hiểu văn bản tốt hơn.

- Tích hợp hàm số (function calling): Cho phép các mô hình Mistral tương tác với các hàm và API bên ngoài, tạo ra tính linh hoạt cao cho các tác vụ như tạo tác nhân, tìm kiếm thông tin trên web hoặc cơ sở dữ liệu chuyên biệt, viết báo cáo, lên ý tưởng - tất cả mà không cần gửi dữ liệu cá nhân đến các công ty tập trung như Google hay OpenAI.

Mistral không cung cấp các điểm chuẩn, nhưng với việc mở rộng đáng kể khả năng và tính năng tích hợp hàm số, phiên bản nâng cấp này là một bản phát hành hấp dẫn cho mô hình AI nguồn mở phổ biến thứ hai trên thị trường. Nó hứa hẹn cải thiện đáng kể hiệu suất so với phiên bản trước, có khả năng mạnh hơn tới 4 lần dựa trên dung lượng bộ từ vựng và kích thước ngữ cảnh token.

- Cohere, công ty AI của Canada, cũng ra mắt Aya 23, một dòng mô hình nguồn mở đa ngôn ngữ với khả năng hỗ trợ 23 ngôn ngữ, phục vụ gần một nửa dân số thế giới.
- Aya 23 vượt trội hơn phiên bản tiền nhiệm Aya 101 và các mô hình phổ biến khác như Mistral 7B v2 và Google Gemma trong các tác vụ phân biệt và tạo sinh.
- Aya 23 có hai phiên bản 8 tỷ và 35 tỷ tham số, trong đó bản 8 tỷ tối ưu cho phần cứng tiêu dùng và bản 35 tỷ cung cấp hiệu suất đỉnh cao trên nhiều tác vụ.
- Aya 23 được tinh chỉnh bằng một tập dữ liệu hướng dẫn đa ngôn ngữ đa dạng với 55,7 triệu mẫu từ 161 bộ dữ liệu, bao gồm các nguồn được chú thích bởi con người, dịch máy và tổng hợp.
- Trong các tác vụ tạo sinh như dịch thuật và tóm tắt, Aya 23 vượt trội hơn các đối thủ dựa trên nhiều tiêu chuẩn đánh giá như spBLEU và RougeL.

📌 Mistral 7B v0.3 và Cohere Aya 23 đánh dấu bước tiến mới trong cuộc đua AI nguồn mở với các tính năng đột phá như không kiểm duyệt, tích hợp hàm số và hỗ trợ đa ngôn ngữ. Hai mô hình này hứa hẹn sẽ là nền tảng mạnh mẽ cho các ứng dụng AI sáng tạo, cạnh tranh trực tiếp với các ông lớn như OpenAI và Meta.

https://decrypt.co/232299/mistral-ai-7b-upgrade-uncensored-cohere-aya-open-source

Không có file đính kèm.

Nguồn tham khảo

122

AI doanh nghiệp AI mở-nguồn mở 2024-05-24 17:48:36

LLMWare.ai được chọn vào GitHub Accelerator 2024: dẫn đầu đổi mới RAG doanh nghiệp với mô hình ngôn ngữ chuyên biệt nhỏ

- LLMWare.ai là 1 trong 11 dự án AI nguồn mở xuất sắc được chọn tham gia GitHub Accelerator 2024.

- LLMWare tập trung vào các mô hình ngôn ngữ chuyên biệt nhỏ, mang lại nhiều lợi thế như dễ tích hợp vào quy trình doanh nghiệp, bảo mật cao, chi phí thấp và tốc độ nhanh.

- Trong 8 tháng qua, LLMWare đã ra mắt nền tảng RAG cấp doanh nghiệp toàn diện (llmware) và bộ mô hình chuyên biệt cho các tác vụ tự động hóa doanh nghiệp then chốt dưới thương hiệu BLING, DRAGON, SLIM và Industry-Bert.

- Khung làm việc thống nhất đầu cuối của LLMWare.ai là lựa chọn hoàn hảo cho các nhà phát triển và doanh nghiệp xây dựng quy trình tự động hóa dựa trên LLM chất lượng cao, dựa trên dữ kiện, riêng tư, hiệu quả về chi phí.

- LLMWare.ai hiện có 2 sản phẩm chính: RAG Pipeline - các thành phần tích hợp cho toàn bộ vòng đời kết nối nguồn tri thức với mô hình AI tạo sinh; và hơn 50 mô hình chuyên biệt nhỏ được tinh chỉnh cho các tác vụ then chốt trong tự động hóa quy trình doanh nghiệp.

- Theo người sáng lập Namee Oberst, việc được chọn vào Chương trình GitHub Accelerator là một cột mốc quan trọng, cơ hội học hỏi từ GitHub và những người xuất sắc nhất trong cộng đồng nguồn mở.

📌 Với những tiến bộ đổi mới và giải pháp toàn diện, LLMWare.ai xứng đáng là 1 trong 11 dự án xuất sắc được chọn vào GitHub Accelerator 2024. Khung làm việc LLMWare, mô hình SLIMs và dòng RAG chuyên biệt DRAGON thể hiện cam kết tạo ra các giải pháp có thể mở rộng quy mô, an toàn và hiệu quả, được điều chỉnh riêng cho các tổ chức tài chính và pháp lý. Với hơn 50 mô hình chuyên biệt và pipeline dữ liệu linh hoạt, LLMWare.ai trao quyền cho các nhà phát triển ở mọi cấp độ dễ dàng xây dựng các ứng dụng doanh nghiệp tinh vi dựa trên tri thức.

https://www.marktechpost.com/2024/05/23/llmware-ai-selected-for-2024-github-accelerator-enabling-the-next-wave-of-innovation-in-enterprise-rag-with-small-specialized-language-models/

Không có file đính kèm.

Nguồn tham khảo

138

AI mở-nguồn mở 2024-05-24 17:42:20

11 dự án AI mã nguồn mở đỉnh nhất năm 2024 trên GitHub Accelerator

- GitHub vừa công bố 11 dự án AI mã nguồn mở xuất sắc nhất được chọn vào chương trình GitHub Accelerator 2024.
- Các dự án được đánh giá dựa trên tiềm năng tạo ra sự nghiệp mới, tác động tới cộng đồng, nâng cao bảo mật và cải thiện năng suất của các nhà phát triển.
- 11 dự án được chọn bao gồm:
• unsloth AI: Giúp tinh chỉnh mô hình AI tùy chỉnh nhanh hơn 2-5 lần với 70% bộ nhớ ít hơn.
• Giskard: Nền tảng kiểm thử mô hình AI, nâng cao chất lượng, bảo mật và tuân thủ.
• A-Frame: Framework tạo nội dung AR/VR và 3D dễ dàng cho mọi người.
• Nav2: Giải pháp điều hướng robot tự hành được tin dùng bởi hơn 100 công ty.
• OpenWebUI: Giao diện người dùng cho AI và LLM chạy cục bộ, bảo mật và hiệu năng cao.
• LLMware.ai: Công cụ xây dựng mô hình LLM và RAG an toàn cho doanh nghiệp.
• LangDrive: API đơn giản hóa quá trình huấn luyện và triển khai mô hình ngôn ngữ.
• HackingBuddyGPT: Đối tác tự động hóa và kiểm thử bảo mật cho các chuyên gia an ninh mạng.
• Web-Check: Công cụ phân tích bảo mật website dựa trên AI và dữ liệu mở.
• marimo: Sổ ghi chép Python thế hệ mới cho khoa học dữ liệu và học máy.
• Talkd.ai: API trò chuyện LLM thống nhất với khả năng quản lý ngữ cảnh.
- GitHub sẽ hỗ trợ các dự án với tổng giá trị gần 400.000 USD, bao gồm 40.000 USD tài trợ không pha loãng, tối đa 350.000 USD lợi ích từ Microsoft và các đối tác công nghệ khác.

📌 GitHub Accelerator 2024 quy tụ 11 dự án AI mã nguồn mở xuất sắc nhất, hứa hẹn thúc đẩy sự phát triển vượt bậc của trí tuệ nhân tạo với các ứng dụng đa dạng từ mô hình ngôn ngữ, robot, thực tế ảo, bảo mật đến khoa học dữ liệu. Chương trình sẽ hỗ trợ các dự án với tổng giá trị gần 400.000 USD cùng nhiều lợi ích khác từ Microsoft và các đối tác.

Citations:
[1] https://github.blog/2024-05-23-2024-github-accelerator-meet-the-11-projects-shaping-open-source-ai/

Không có file đính kèm.

Nguồn tham khảo

136

AI mở-nguồn mở 2024-05-24 17:35:51

Cohere ra mắt Aya 23: mô hình ngôn ngữ lớn mã nguồn mở hiểu 23 ngôn ngữ

- Cohere giới thiệu Aya 23, một dòng mô hình ngôn ngữ lớn (LLM) mã nguồn mở mới có khả năng hiểu 23 ngôn ngữ.
- Aya 23 bao gồm hai thuật toán: một với 8 tỷ tham số để cân bằng giữa chất lượng phản hồi và hiệu suất, và một phiên bản lớn hơn với 35 tỷ tham số dành cho các yêu cầu nâng cao.
- Phiên bản Aya-23-35B dựa trên LLM Command R, hỗ trợ prompt lên đến 128.000 token, có tính năng RAG tích hợp và có thể tự động thực hiện các tác vụ trong các ứng dụng bên ngoài.
- Aya-23-35B dựa trên kiến trúc Transformer chỉ giải mã (decoder-only), xác định ý nghĩa của từng từ bằng cách phân tích ngữ cảnh của nó.
- Aya 23 cải tiến kiến trúc Transformer chỉ giải mã bằng cách sử dụng grouped query attention để giảm sử dụng RAM và tăng tốc độ suy luận, cũng như sử dụng rotational positional embeddings để xử lý thông tin vị trí từ hiệu quả hơn.
- Aya 23 được huấn luyện trên tập dữ liệu đa ngôn ngữ Aya, bao gồm 513 triệu cặp prompt-câu trả lời trong 114 ngôn ngữ, được phát triển thông qua một sáng kiến mã nguồn mở với sự đóng góp của khoảng 3.000 người.
- Trong các đánh giá nội bộ, Aya-23-35B vượt trội hơn đáng kể so với Aya-101 (một LLM hiểu 101 ngôn ngữ) và một số LLM mã nguồn mở khác trong các tác vụ xử lý văn bản đa ngôn ngữ.

📌 Aya 23, dòng LLM mã nguồn mở mới của Cohere, đánh dấu một bước tiến quan trọng trong xử lý ngôn ngữ tự nhiên đa ngôn ngữ. Với khả năng hiểu 23 ngôn ngữ, cải tiến kiến trúc Transformer và huấn luyện trên tập dữ liệu Aya 513 triệu cặp prompt-câu trả lời, Aya 23 hứa hẹn mang lại hiệu suất vượt trội trong các tác vụ xử lý văn bản đa ngôn ngữ.

https://siliconangle.com/2024/05/23/cohere-open-sources-aya-23-series-multilingual-llms/

Không có file đính kèm.

Nguồn tham khảo

AI coding assistant AI mở-nguồn mở 2024-05-24 17:26:09

CloudCode AI giới thiệu Kaizen: giải pháp AI nguồn mở giúp cách mạng hóa kiểm thử phần mềm và đánh giá mã nguồn

- CloudCode AI, một giải pháp phần mềm dựa trên AI, vừa công bố ra mắt Kaizen - một dự án nguồn mở tiên tiến được thiết kế để tăng cường đáng kể quá trình kiểm thử ứng dụng phần mềm và đánh giá mã nguồn.

- Kaizen tận dụng sức mạnh của trí tuệ nhân tạo để hỗ trợ các nhà phát triển hợp lý hóa quy trình làm việc, đảm bảo họ có thể di chuyển nhanh hơn mà không làm ảnh hưởng đến chất lượng hay bảo mật.

- Trong bối cảnh phát triển phần mềm nhanh chóng như hiện nay, việc duy trì các tiêu chuẩn chất lượng và bảo mật cao đồng thời đáp ứng các thời hạn gấp rút là một thách thức đáng kể. Kaizen giải quyết trực tiếp thách thức này bằng cách cung cấp một agent AI thông minh hỗ trợ các nhà phát triển kiểm thử và đánh giá mã nguồn một cách hiệu quả.

- Công cụ sáng tạo này sẽ trở thành một phần không thể thiếu đối với các nhóm phát triển đang phấn đấu vì sự xuất sắc và tốc độ trong quá trình xây dựng phần mềm.

- Kaizen hứa hẹn sẽ mang lại những lợi ích to lớn cho cộng đồng các nhà phát triển phần mềm trên toàn thế giới nhờ khả năng tận dụng sức mạnh của AI để tối ưu hóa quy trình kiểm thử và đánh giá mã nguồn.

📌 Kaizen của CloudCode AI là một dự án nguồn mở đột phá sử dụng trí tuệ nhân tạo tiên tiến để cách mạng hóa quy trình kiểm thử phần mềm và đánh giá mã nguồn. Với việc cung cấp một agent AI thông minh hỗ trợ các nhà phát triển tăng tốc mà vẫn đảm bảo chất lượng và bảo mật, Kaizen hứa hẹn sẽ trở thành một công cụ không thể thiếu cho các nhóm phát triển phần mềm trên toàn cầu, giúp họ vượt qua thách thức của việc duy trì tiêu chuẩn cao trong bối cảnh thời hạn gấp rút.

https://www.chronicle-tribune.com/news/wire/cloudcode-ai-unveils-kaizen-an-ai-powered-open-source-solution-to-revolutionize-software-testing-and/article_a97f7d2b-0e63-58de-97e0-09ae0bb51ac6.html

Không có file đính kèm.

Nguồn tham khảo

156

AI pháp lý-quản trị-chủ quyền AI mở-nguồn mở 2024-05-24 17:10:13

Fastweb hợp tác với AWS để cung cấp mô hình ngôn ngữ lớn tiếng Ý cho bên thứ ba

- Fastweb sẽ tận dụng các dịch vụ AI tạo sinh và học máy của Amazon Web Services (AWS) để cung cấp mô hình ngôn ngữ lớn (LLM) được huấn luyện bằng tiếng Ý cho các bên thứ ba.
- Fastweb đang xây dựng một tập dữ liệu tiếng Ý toàn diện bằng cách kết hợp các nguồn công khai và dữ liệu được cấp phép từ các nhà xuất bản và cơ quan truyền thông.
- Sử dụng dữ liệu này, Fastweb đã tinh chỉnh mô hình Mistral 7B bằng Amazon SageMaker, đạt được cải thiện hiệu suất từ 20-50% trên các tiêu chuẩn ngôn ngữ tiếng Ý.
- Các mô hình mới sẽ được cung cấp trên Hugging Face, cho phép khách hàng triển khai chúng thông qua Amazon SageMaker.
- Trong tương lai, Fastweb dự định chạy mô hình của mình trên Amazon Bedrock bằng Custom Model Import, để có thể dễ dàng xây dựng và mở rộng các giải pháp AI tạo sinh mới cho khách hàng.
- Walter Renna, CEO của Fastweb cho rằng sáng kiến chiến lược này sẽ giúp thúc đẩy chuyển đổi số cho các tổ chức Ý bằng cách sử dụng các công nghệ tiên tiến nhất.
- Fabio Cerone, Tổng giám đốc Telco Industry, EMEA, AWS cam kết dân chủ hóa việc tiếp cận công nghệ và ứng dụng AI tạo sinh cho khách hàng trên toàn thế giới. Ông cho rằng việc Fastweb tạo ra LLM tiếng Ý là một bước quan trọng trong việc làm cho sức mạnh chuyển đổi của AI tạo sinh dễ tiếp cận hơn với doanh nghiệp và cơ quan chính phủ Ý.

📌 Fastweb hợp tác với AWS để cung cấp LLM tiếng Ý, được huấn luyện trên tập dữ liệu toàn diện kết hợp từ nhiều nguồn. Mô hình đạt cải thiện 20-50% trên các tiêu chuẩn ngôn ngữ, sẽ được cung cấp qua Hugging Face và Amazon SageMaker, giúp thúc đẩy chuyển đổi số cho các tổ chức Ý với công nghệ AI tiên tiến.

https://www.thefastmode.com/technology-solutions/35966-natively-trained-italian-llm-by-fastweb-to-leverage-aws-genai-and-machine-learning-capabilities

Không có file đính kèm.

Nguồn tham khảo

104

AI models AI mở-nguồn mở 2024-05-24 08:08:47

OpenRLHF: framework nguồn mở tăng tốc huấn luyện mô hình ngôn ngữ khổng lồ bằng học tăng cường từ phản hồi người dùng

- OpenRLHF là một framework học tăng cường từ phản hồi của con người (RLHF) đột phá, giải quyết các thách thức trong việc huấn luyện các mô hình ngôn ngữ lớn (LLM) với hơn 70 tỷ tham số.
- Các phương pháp RLHF hiện tại thường chia nhỏ LLM trên nhiều GPU để huấn luyện, dẫn đến phân mảnh bộ nhớ, giảm kích thước batch hiệu quả và tốc độ huấn luyện chậm.
- OpenRLHF sử dụng Ray - trình lập lịch tác vụ phân tán và vLLM - công cụ suy luận phân tán để tối ưu hóa việc sử dụng bộ nhớ và tăng tốc độ huấn luyện.
- Ray phân bổ LLM trên các GPU một cách thông minh, tránh phân mảnh quá mức, cho phép kích thước batch lớn hơn trên mỗi GPU.
- vLLM tận dụng khả năng xử lý song song của nhiều GPU để tăng tốc độ tính toán.
- So sánh chi tiết với framework DSChat khi huấn luyện mô hình LLaMA2 7B tham số, OpenRLHF đạt được sự hội tụ huấn luyện nhanh hơn và giảm đáng kể tổng thời gian huấn luyện.
- OpenRLHF giải quyết các rào cản chính trong việc huấn luyện LLM khổng lồ bằng RLHF, mở ra con đường để tinh chỉnh các LLM lớn hơn với phản hồi của con người.

📌 OpenRLHF đột phá giúp huấn luyện hiệu quả các mô hình ngôn ngữ lớn với 70 tỷ tham số bằng học tăng cường từ phản hồi người dùng. Với Ray và vLLM, nó tối ưu bộ nhớ, tăng tốc huấn luyện gấp 2 lần so với DSChat trên LLaMA2 7B, mở ra kỷ nguyên mới cho xử lý ngôn ngữ tự nhiên và tương tác thông tin.

https://www.marktechpost.com/2024/05/23/openrlhf-an-open-source-ai-framework-enabling-efficient-reinforcement-learning-from-human-feedback-rlhf-scaling/

Không có file đính kèm.

Nguồn tham khảo

158

AI mở-nguồn mở 2024-05-20 07:20:18

Openwashing: Tranh cãi về mã nguồn mở trong AI

- Có cuộc tranh luận lớn trong giới công nghệ về việc liệu các mô hình trí tuệ nhân tạo (AI) có nên là "mã nguồn mở" hay không.
- Những người ủng hộ mô hình AI mã nguồn mở cho rằng chúng công bằng và an toàn hơn cho xã hội, trong khi những người phản đối cho rằng chúng dễ bị lạm dụng vào mục đích xấu.
- Một vấn đề lớn trong cuộc tranh luận là không có định nghĩa thống nhất về AI mã nguồn mở thực sự là gì. Một số tổ chức bị cáo buộc "openwashing" - sử dụng thuật ngữ "mã nguồn mở" một cách không trung thực để tạo vẻ ngoài tốt đẹp.
- Các tổ chức áp dụng nhãn này cho các mô hình của họ có thể đang áp dụng các cách tiếp cận rất khác nhau về tính cởi mở. Ví dụ: OpenAI tiết lộ rất ít về các mô hình của mình, Meta đặt các hạn chế đối với việc sử dụng LLaMA 2 và LLaMA 3 mặc dù gắn nhãn mã nguồn mở.
- Các mô hình cởi mở nhất, chủ yếu do các tổ chức phi lợi nhuận điều hành, công bố mã nguồn và dữ liệu đào tạo cơ bản, sử dụng giấy phép mã nguồn mở cho phép tái sử dụng rộng rãi. Nhưng ngay cả với những mô hình này, vẫn có những trở ngại để người khác có thể sao chép chúng.
- Lý do chính là trong khi phần mềm mã nguồn mở cho phép bất kỳ ai sao chép hoặc sửa đổi nó, việc xây dựng một mô hình AI đòi hỏi nhiều hơn mã. Chỉ một số ít công ty có thể tài trợ cho sức mạnh tính toán và quản lý dữ liệu cần thiết.
- Một số chuyên gia cho rằng việc dán nhãn bất kỳ AI nào là "mã nguồn mở" trong trường hợp tốt nhất là gây hiểu lầm và trong trường hợp xấu nhất là một công cụ tiếp thị.
- Các nỗ lực để tạo ra một định nghĩa rõ ràng hơn cho AI mã nguồn mở đang được tiến hành bởi Linux Foundation và Open Source Initiative. Tuy nhiên, nhiều người nghi ngờ rằng AI mã nguồn mở thực sự là không thể.

📌 Openwashing là cáo buộc một số công ty AI sử dụng nhãn "mã nguồn mở" không trung thực. Có tranh cãi lớn về việc liệu các mô hình AI có nên là mã nguồn mở, với các cách tiếp cận khác nhau từ các công ty như OpenAI và Meta. Các chuyên gia nghi ngờ AI mã nguồn mở thực sự là khả thi do yêu cầu tài nguyên khổng lồ để xây dựng các mô hình.

https://www.nytimes.com/2024/05/17/business/what-is-openwashing-ai.html

#NYT

Không có file đính kèm.

Nguồn tham khảo

124

AI mở-nguồn mở 2024-05-18 08:35:06

Google ra mắt Model Explorer, công cụ nguồn mở giúp trực quan hóa và gỡ lỗi mô hình AI

- Google giới thiệu Model Explorer, một công cụ đột phá trong lĩnh vực trực quan hóa học máy, giúp các nhà nghiên cứu và kỹ sư khám phá nội tại của các mô hình AI phức tạp.
- Model Explorer sử dụng phương pháp phân cấp, cho phép người dùng dễ dàng điều hướng qua các mạng nơ-ron phức tạp như mô hình ngôn ngữ tiên tiến và mạng khuếch tán.
- Công cụ này là một phần quan trọng trong sáng kiến "AI on the Edge" của Google, nhằm mang nhiều khả năng tính toán AI đến các thiết bị và làm cho các hệ thống này minh bạch và có trách nhiệm giải trình hơn.
- Model Explorer đánh dấu bước tiến đáng kể trong việc giải mã thế giới phức tạp của trí tuệ nhân tạo, cho phép các nhà nghiên cứu và nhà phát triển kiểm tra kỹ lưỡng các mạng nơ-ron phức tạp nhất.
- Khi AI ngày càng trở nên phổ biến trong cuộc sống hàng ngày, từ điện thoại thông minh đến y tế và giao thông, nhu cầu về các công cụ như Model Explorer sẽ chỉ tăng lên.
- Cuộc tìm kiếm AI thực sự minh bạch và có trách nhiệm giải trình mới chỉ bắt đầu, nhưng Model Explorer của Google là một bước tiến quan trọng theo đúng hướng, mở đường cho một tương lai nơi AI vừa mạnh mẽ vừa dễ hiểu.

📌 Model Explorer của Google là một bước đột phá trong việc làm rõ các mô hình AI phức tạp, mang lại khả năng hiểu sâu hơn về cách thức hoạt động của chúng. Công cụ nguồn mở này hứa hẹn thúc đẩy sự minh bạch và trách nhiệm giải trình trong lĩnh vực AI, đồng thời mở ra con đường cho một tương lai nơi AI vừa mạnh mẽ vừa dễ hiểu.

Citations:
[1] https://venturebeat.com/ai/google-launches-model-explorer-an-open-source-tool-for-seamless-ai-model-visualization-and-debugging/

Không có file đính kèm.

Nguồn tham khảo

133

AI nhỏ AI mở-nguồn mở 2024-05-17 23:47:38

Tiny AI: AI thầm lặng có thể thay đổi tương lai công việc

- Tiny AI là các mô hình AI nhỏ gọn, chuyên biệt có thể chạy trực tiếp trên máy tính xách tay hoặc điện thoại thông minh, thay vì phụ thuộc vào đám mây như ChatGPT.
- Các mô hình này tuy không có khả năng rộng như ChatGPT nhưng bù lại chúng dễ tiếp cận và tùy chỉnh hơn, phù hợp với ngôn ngữ và kiến thức duy nhất của từng ngành.
- Tiny AI đảm bảo tính riêng tư và bảo mật dữ liệu nhạy cảm của khách hàng, mở ra nhiều khả năng tích hợp AI vào quy trình làm việc.
- Một số mô hình Tiny AI phổ biến bao gồm H2O-Danube2-1.8B (1.8 tỷ tham số), Microsoft Phi 1.5 và Google Gemma 2B.
- Tiny AI cho phép chạy nhanh các thử nghiệm trong kinh doanh mà trước đây không thể thực hiện được, tương tự như cách phần mềm đã thúc đẩy sự phát triển kinh doanh trong thập kỷ qua.
- Việc phát triển và triển khai các mô hình AI tùy chỉnh này đòi hỏi một số kiến thức và nguồn lực kỹ thuật, nhưng rào cản gia nhập đang ngày càng thấp nhờ hệ sinh thái các công cụ và nền tảng dân chủ hóa AI đang phát triển.
- Khi các công cụ này trưởng thành và ngày càng nhiều doanh nghiệp nhận ra tiềm năng của Tiny AI, chúng ta có thể kỳ vọng một sự bùng nổ đổi mới tại nơi làm việc, tương tự như cách máy tính cá nhân đã cách mạng hóa năng suất văn phòng trong những năm 1980 và 1990.

📌 Tiny AI hứa hẹn sẽ trở thành vũ khí bí mật của các doanh nghiệp, mở ra cánh cửa năng suất, sáng tạo và đổi mới ở cấp độ mới. Với khả năng tùy chỉnh và truy cập dễ dàng, Tiny AI đang âm thầm thay đổi tương lai của công việc, một mô hình nhỏ gọn nhưng đầy sức mạnh trong mỗi lần.

https://www.forbes.com/sites/forbesagencycouncil/2024/05/17/how-to-use-ai-at-work-beyond-chatgpt/

Không có file đính kèm.

Nguồn tham khảo

128

AI mở-nguồn mở 2024-05-14 01:59:01

UAE ra mắt mô hình AI Falcon mới, thách thức Meta và OpenAI

- Falcon 2 11B, phiên bản cập nhật của mô hình AI nguồn mở Falcon, do Viện Đổi mới Công nghệ (TII) của Abu Dhabi phát triển, mạnh hơn mô hình tương tự mới nhất của Meta và ngang bằng với Gemini theo một số chỉ số.
- Một quan chức cấp cao cho biết Falcon chứng minh UAE là một "người chơi nghiêm túc" trong cuộc đua AI toàn cầu, với hiệu suất vượt trội hơn nhiều "ông lớn" khác với chỉ một phần nhỏ sức mạnh tính toán và quy mô đội ngũ.
- UAE đang đẩy mạnh AI, coi công nghệ này là trụ cột kinh tế tiếp theo sau dầu mỏ, với nhiều doanh nghiệp và quỹ đầu tư AI mới có thể lên tới 100 tỷ USD.
- Công ty mới AI71 được thành lập để thương mại hóa Falcon, đã bắt đầu thử nghiệm công nghệ này trong bệnh viện, công ty luật và trung tâm cuộc gọi với các đối tác UAE.
- Phiên bản Falcon mới hỗ trợ 5 ngôn ngữ châu Âu và khả năng "chuyển đổi hình ảnh thành ngôn ngữ", cho phép máy tính chuyển đổi hình ảnh thành văn bản một cách trôi chảy.
- Sự phát triển của Falcon sẽ thuộc một tổ chức mới, Falcon Foundation, được mô phỏng theo tổ chức phần mềm phi lợi nhuận Linux Foundation, đảm bảo Falcon sẽ mãi mãi là nguồn mở.

📌 UAE đang nỗ lực đẩy mạnh AI với mô hình Falcon 2 11B mới, vượt trội hơn các đối thủ như Meta và ngang bằng Gemini. Với công ty AI71 và Falcon Foundation, Abu Dhabi đang thương mại hóa công nghệ này, tập trung vào các ứng dụng doanh nghiệp có tác động lớn, hướng tới mục tiêu biến AI thành trụ cột kinh tế mới sau dầu mỏ.

https://www.bloomberg.com/news/articles/2024-05-13/uae-releases-new-falcon-ai-model-11b-to-rival-meta-s-llama-openai-and-google

Không có file đính kèm.

Nguồn tham khảo

150

AI mở-nguồn mở 2024-05-12 08:52:24

IBM phát hành bộ mô hình mã nguồn mở Granite giúp lập trình dễ dàng hơn cho developer

- IBM đã phát hành bộ mô hình mã nguồn mở Granite nhằm giúp việc lập trình trở nên dễ dàng hơn cho mọi người.
- Mặc dù phần mềm đóng vai trò quan trọng trong xã hội hiện đại, quá trình lập trình vẫn còn khó khăn và tốn thời gian, ngay cả với các kỹ sư có kinh nghiệm.
- Các mô hình ngôn ngữ lớn (LLM) đã trở nên quan trọng trong môi trường phát triển, giúp tăng hiệu quả và độc lập khi xử lý các công việc lập trình phức tạp.
- Công cụ WatsonX Code Assistant (WCA) mới nhất của IBM sử dụng khả năng 20 tỷ tham số đáng kinh ngạc của mô hình mã ngôn ngữ lớn Granite.
- Công nghệ này đã được chứng minh là hữu ích trong môi trường doanh nghiệp thông qua vai trò chuyển đổi các ứng dụng COBOL thành các dịch vụ hiện đại được tối ưu hóa cho IBM Z.
- IBM đã công khai 4 phiên bản mô hình mã Granite với số lượng tham số từ 3 đến 34 tỷ, được thiết kế riêng cho nhiều tác vụ lập trình khác nhau.
- Các mô hình này đã trải qua quá trình đánh giá kỹ lưỡng để đảm bảo đáp ứng các yêu cầu cao nhất về hiệu suất và khả năng thích ứng trong nhiều tác vụ mã hóa như tạo, gỡ lỗi và giải thích.
- Thông qua dự án nguồn mở, IBM hy vọng sẽ loại bỏ các rào cản đi kèm với giá cao và quy tắc cấp phép không rõ ràng của các mô hình độc quyền, đồng thời đẩy nhanh việc áp dụng các mô hình AI tạo sinh trong lĩnh vực kinh doanh.
- Với khả năng thích ứng và tối ưu hóa quy trình làm việc của doanh nghiệp, các mô hình mã Granite cung cấp cho các nhà phát triển một bộ công cụ mạnh mẽ có thể tự động hóa các hoạt động lập trình lặp đi lặp lại, cải thiện chất lượng mã và cho phép tích hợp liền mạch giữa các ứng dụng cũ và hiện đại.

📌 IBM đã phát hành bộ mô hình mã nguồn mở Granite với 4 phiên bản có số lượng tham số từ 3 đến 34 tỷ. Bộ mô hình này giúp tự động hóa công việc lập trình, cải thiện chất lượng mã, tích hợp ứng dụng cũ và mới, qua đó hỗ trợ đắc lực cho các nhà phát triển phần mềm, loại bỏ rào cản chi phí và đẩy nhanh ứng dụng AI tạo sinh trong kinh doanh.

Citations:
[1] https://www.marktechpost.com/2024/05/09/ibm-ai-team-releases-an-open-source-family-of-granite-code-models-for-making-coding-easier-for-software-developers/

Không có file đính kèm.

Nguồn tham khảo

119

AI mở-nguồn mở 2024-05-11 09:25:09

HPT 1.5 Air: siêu mô hình AI đa phương thức 8B mã nguồn mở mới với LLaMA 3

- HPT 1.5 Air là mô hình ngôn ngữ đa phương thức (multimodal) 8B mã nguồn mở mới, sử dụng phiên bản LLaMA 3 mới nhất, được tối ưu hóa để đạt hiệu quả và độ mạnh mẽ cao hơn.
- Kiến trúc ấn tượng của HPT 1.5 Air hỗ trợ khả năng hiểu sâu sắc và tinh tế các dữ liệu đầu vào đa phương thức.
- Mặc dù chỉ có khoảng 10 tỷ tham số, HPT 1.5 Air vẫn nhẹ và hiệu quả cao, vượt trội hơn cả các đối thủ có số lượng tham số lớn hơn nhiều.
- Tích hợp dữ liệu hình ảnh và văn bản trong AI là then chốt quan trọng để phát triển các hệ thống giống như nhận thức của con người.
- Thách thức chính là các mô hình cần xử lý và diễn giải kết hợp hiệu quả, chính xác các luồng thông tin hình ảnh và văn bản.
- Trước đây, các mô hình thường xử lý riêng rẽ dữ liệu hình ảnh và văn bản, dẫn đến kém hiệu quả và thiếu sự hiểu biết tổng thể.
- HyperGAI đã phát triển mô hình HPT 1.5 Air, kết hợp cơ chế mã hóa hình ảnh tinh vi với khả năng xử lý ngôn ngữ mạnh mẽ.
- HPT 1.5 Air dựa trên kiến trúc nền tảng của các phiên bản tiền nhiệm nhưng có những cải tiến đáng kể ở cả bộ mã hóa hình ảnh và các thành phần mô hình ngôn ngữ.
- HPT 1.5 Air đã thể hiện kết quả vượt trội trên nhiều bài kiểm tra đánh giá khác nhau, đặc biệt là trong các môi trường đòi hỏi mức độ hiểu biết cao về hình ảnh và văn bản.
- Trong các bài kiểm tra SEED-I, SQA và MMStar, HPT 1.5 Air không chỉ đáp ứng mà còn vượt xa kỳ vọng, thiết lập các tiêu chuẩn mới.

📌 HPT 1.5 Air, mô hình AI đa phương thức 8B mã nguồn mở mới sử dụng LLaMA 3, mang lại hiệu quả vượt trội trong xử lý văn bản và hình ảnh. Với kiến trúc ấn tượng và chỉ 10 tỷ tham số, HPT 1.5 Air đã vượt qua nhiều đối thủ lớn hơn trên các bài kiểm tra như SEED-I, SQA, MMStar, thiết lập tiêu chuẩn mới cho AI đa phương thức.

Citations:
[1] https://www.marktechpost.com/2024/05/10/meet-hpt-1-5-air-a-new-open-sourced-8b-multimodal-llm-with-llama-3/

Không có file đính kèm.

Nguồn tham khảo

135

AI mở-nguồn mở 2024-05-11 08:49:07

Red Hat mở rộng công nghệ AI tạo sinh Lightspeed lên Linux và OpenShift

### Meta descriptions
Red Hat mở rộng công nghệ AI tạo sinh Lightspeed lên Linux và OpenShift, hứa hẹn cải thiện hiệu quả và đơn giản hóa quản lý cho người mới và chuyên gia.

### Meta keywords
Red Hat, Lightspeed, AI tạo sinh, Linux, OpenShift, tự động hóa, quản lý cluster, RHEL, Ansible Lightspeed, IBM Watsonx

### Interesting and shocked SEO title
Red Hat đưa AI tạo sinh Lightspeed lên Linux và OpenShift: Bước đột phá mới trong tự động hóa!

- Red Hat công bố mở rộng công nghệ AI tạo sinh Lightspeed cho nền tảng ứng dụng đám mây hỗn hợp Red Hat OpenShift và Red Hat Enterprise Linux (RHEL).
- Dự kiến, Red Hat OpenShift Lightspeed sẽ được ra mắt vào cuối năm 2024, trong khi Red Hat Enterprise Linux Lightspeed vẫn đang trong giai đoạn lên kế hoạch.
- Lightspeed sẽ áp dụng AI tạo sinh để triển khai và mở rộng các ứng dụng truyền thống và bản địa đám mây trên các cluster OpenShift, giúp người mới làm quen nhanh chóng và chuyên gia làm việc hiệu quả hơn.
- Ví dụ, khi một cluster đạt đến công suất tối đa, Lightspeed sẽ đề xuất cho người dùng kích hoạt tính năng tự động mở rộng và sau khi đánh giá các cluster được lưu trữ trên đám mây công cộng, đề xuất thêm một instance phù hợp.
- Red Hat Enterprise Linux Lightspeed hỗ trợ đơn giản hóa việc triển khai và bảo trì môi trường Linux, giúp các đội ngũ vận hành RHEL làm việc nhanh hơn và hiệu quả hơn khi hệ thống mở rộng và trở nên phức tạp.
- Lightspeed có thể thông báo cho quản trị viên về việc phát hành cảnh báo bảo mật với các bản vá sửa lỗi.
- Ngoài ra, Red Hat cũng thông báo rằng Red Hat Ansible Lightspeed đã được cải tiến với khả năng tùy chỉnh và điều chỉnh mô hình cùng với bảng điều khiển để xem dữ liệu telemetry.
- Tính năng tùy chỉnh và điều chỉnh mô hình thông qua IBM Watsonx Code Assistant cho phép người dùng Ansible Lightspeed sử dụng nội dung Ansible hiện có để đào tạo mô hình, cải thiện chất lượng và độ chính xác của nội dung Ansible theo nhu cầu và mẫu tự động hóa cụ thể của tổ chức.

📌 Red Hat mở rộng AI tạo sinh Lightspeed cho OpenShift và RHEL, hứa hẹn cải thiện hiệu quả cho người mới và chuyên gia. Dự kiến ra mắt OpenShift Lightspeed cuối 2024, RHEL Lightspeed đang lên kế hoạch. Ansible Lightspeed cải tiến với tùy chỉnh mô hình và bảng điều khiển telemetry.

Không có file đính kèm.

Nguồn tham khảo

110

AI mở-nguồn mở 2024-05-10 00:32:46

Meta AI vừa phát hành mô hình ngôn ngữ lớn LLaMA-3 không kiểm duyệt, cho phép người dùng tự do khám phá và thử nghiệm

- Meta AI đã phát hành phiên bản không kiểm duyệt của mô hình ngôn ngữ lớn LLaMA-3, cho phép người dùng tự do khám phá tiềm năng của AI tạo sinh.
- LLaMA-3 được huấn luyện trên 1,4 nghìn tỷ token, gấp 58 lần so với phiên bản LLaMA ban đầu, hứa hẹn mang lại hiệu suất vượt trội.
- Mô hình này có khả năng thực hiện nhiều tác vụ khác nhau như trả lời câu hỏi, tóm tắt văn bản, phân tích cảm xúc và sáng tạo nội dung.
- Meta AI hy vọng việc phát hành LLaMA-3 không kiểm duyệt sẽ thúc đẩy sự phát triển của cộng đồng AI và giúp các nhà nghiên cứu, kỹ sư phần mềm khám phá những ứng dụng mới của công nghệ này.
- Tuy nhiên, việc sử dụng mô hình không kiểm duyệt cũng tiềm ẩn những rủi ro như tạo ra nội dung không phù hợp, vi phạm bản quyền hoặc thông tin sai lệch.
- Meta AI khuyến cáo người dùng cần cẩn trọng khi sử dụng LLaMA-3 và tuân thủ các nguyên tắc đạo đức trong nghiên cứu và ứng dụng AI.
- Việc phát hành LLaMA-3 không kiểm duyệt đánh dấu một bước tiến quan trọng trong lĩnh vực AI, mở ra nhiều cơ hội mới cho các nhà phát triển và doanh nghiệp.

📌 Meta AI vừa tung ra phiên bản không kiểm duyệt của mô hình ngôn ngữ lớn LLaMA-3 với 1,4 nghìn tỷ token, cho phép người dùng tự do khám phá tiềm năng của AI tạo sinh. Đây là một bước tiến quan trọng, mở ra nhiều cơ hội mới nhưng cũng tiềm ẩn rủi ro nếu không sử dụng đúng cách.

Citations:
[1] https://www.geeky-gadgets.com/llama-3-uncensored/

Không có file đính kèm.

Nguồn tham khảo

290

AI models AI mở-nguồn mở 2024-05-09 07:08:06

Tenyx làm nên lịch sử: Mô hình Llama-3 nguồn mở giờ đây đã vượt mặt GPT-4

- Tenyx, một startup về AI, đã tinh chỉnh thành công mô hình ngôn ngữ Llama-3 của Meta, giờ đổi tên thành Tenyx-70B, và đã vượt qua GPT-4 của OpenAI trong một số lĩnh vực.
- Itamar Arel, người sáng lập và CEO của Tenyx, cho biết công nghệ tinh chỉnh này cho phép họ khai thác sự trùng lặp trong các mô hình lớn để thực hiện học tập liên tục hoặc học tập gia tăng.
- Mô hình Tenyx-70B đã được tối ưu hóa để vượt trội hơn GPT-4 trong các nhiệm vụ toán học và lập trình, đồng thời vượt qua mô hình Llama-3 gốc trong tất cả các khả năng.
- Tenyx đã giải quyết vấn đề "quên lãng thảm họa" bằng cách chỉ cập nhật một phần nhỏ các tham số của mô hình, cho phép mô hình được đào tạo trên thông tin mới mà không làm ảnh hưởng đến các khả năng hiện có.
- Mô hình Llama-3 tinh chỉnh của Tenyx, với 70 tỷ tham số, đã được đào tạo chỉ trong 15 giờ sử dụng 100 GPU.
- Tenyx cũng cam kết với AI nguồn mở bằng cách phát hành mô hình Tenyx-70B dưới cùng một giấy phép với mô hình Llama-3 gốc, nhấn mạnh tầm quan trọng của việc chia sẻ tiến bộ với cộng đồng.
- Các ứng dụng tiềm năng của công nghệ tối ưu hóa sau đào tạo của Tenyx rất rộng lớn, từ việc tạo ra các chatbot chuyên biệt cho các ngành cụ thể đến việc cho phép các bản cập nhật tăng cường thường xuyên cho các mô hình đã triển khai.
- Sự đột phá của Tenyx có thể làm thay đổi cán cân trong ngành công nghiệp AI, cung cấp cho các doanh nghiệp và nhà nghiên cứu quyền truy cập vào các mô hình ngôn ngữ tiên tiến mà không cần chi phí cao và các hạn chế liên quan đến các sản phẩm độc quyền.
- Mặc dù mô hình Llama-3 tối ưu hóa của Tenyx vẫn kế thừa một số hạn chế của mô hình gốc, như phản ứng không logic hoặc không có cơ sở, nhưng sự cải thiện về hiệu suất là đáng kể, đạt gần 96% chính xác trong các nhiệm vụ toán học và suy luận.

📌 Tenyx đã tạo ra một bước đột phá trong ngành công nghiệp AI bằng cách tinh chỉnh mô hình ngôn ngữ Llama-3 để vượt qua GPT-4 trong một số lĩnh vực, đánh dấu lần đầu tiên một mô hình nguồn mở vượt qua tiêu chuẩn vàng độc quyền. Mô hình Tenyx-70B đã được tối ưu hóa để đạt hiệu suất cao trong các nhiệm vụ toán học và lập trình, mở ra cánh cửa cho một kỷ nguyên mới của sự đổi mới AI nguồn mở.

https://venturebeat.com/ai/exclusive-ai-startup-tenyxs-fine-tuned-open-source-llama-3-model-outperforms-gpt-4/

Không có file đính kèm.

Nguồn tham khảo

185

AI doanh nghiệp AI mở-nguồn mở 2024-05-09 06:01:01

Red Hat ra mắt RHEL AI và InstructLab nhằm dân chủ hóa AI trong doanh nghiệp

- Red Hat giới thiệu RHEL AI, một nền tảng mô hình nền tảng đa năng để phát triển và chạy các mô hình ngôn ngữ nguồn mở, cùng với InstructLab, một dự án cộng đồng cho phép các chuyên gia tinh chỉnh mô hình AI.
- CEO Matt Hicks nhấn mạnh cam kết nguồn mở và cách tiếp cận hybrid của Red Hat, cho rằng AI không khác biệt cơ bản so với các ứng dụng, cần huấn luyện ở một số nơi và chạy ở những nơi khác, đồng thời trung lập với cơ sở hạ tầng phần cứng.
- Red Hat có kinh nghiệm lâu năm trong tối ưu hóa hiệu suất trên nhiều stack phần cứng khác nhau như Nvidia, AMD, Intel và Gaudi.
- Cách tiếp cận nguồn mở của Red Hat đảm bảo khách hàng giữ quyền sở hữu IP của mình khi làm việc với công ty.

📌 Red Hat đang dẫn đầu cuộc cách mạng dân chủ hóa AI trong doanh nghiệp với RHEL AI và InstructLab, kết hợp sức mạnh của nguồn mở, tối ưu đa nền tảng và bảo vệ IP khách hàng, hứa hẹn mang AI tạo sinh đến nhiều tổ chức hơn bao giờ hết.

Citations:
[1] https://venturebeat.com/ai/red-hat-unveils-rhel-ai-and-instructlab-to-democratize-enterprise-ai/

Không có file đính kèm.

Nguồn tham khảo

128

AI mở-nguồn mở 2024-05-08 05:28:51

IBM mở mã nguồn mô hình AI Granite, ra mắt nền tảng Instructlab

- IBM đã công bố mở mã nguồn bộ mô hình AI Granite, bao gồm các mô hình ngôn ngữ lớn và các bộ dữ liệu huấn luyện.
- Granite-3B, mô hình lớn nhất trong bộ Granite, đạt điểm số 78,3% trên bài kiểm tra MMLU, vượt qua ChatGPT của OpenAI.
- IBM cũng ra mắt InstructLab, một nền tảng cho phép các nhà nghiên cứu và doanh nghiệp tạo ra các mô hình AI tạo sinh tiên tiến.
- InstructLab hỗ trợ các tính năng như tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, tạo sinh đa phương thức (multimodal), và khung kiểm thử (testbed) để đánh giá hiệu suất của mô hình.
- Granite và InstructLab là một phần trong nỗ lực của IBM nhằm thúc đẩy sự phát triển của AI nguồn mở và tạo điều kiện cho việc nghiên cứu và ứng dụng AI.
- Việc mở mã nguồn Granite và cung cấp InstructLab miễn phí sẽ giúp các nhà nghiên cứu và doanh nghiệp tiếp cận với công nghệ AI tiên tiến và xây dựng các ứng dụng AI từ cốt lõi (AI-native).

📌 IBM đã mở mã nguồn bộ mô hình AI Granite với mô hình Granite-3B vượt trội hơn ChatGPT, đồng thời ra mắt nền tảng InstructLab hỗ trợ các tính năng tiên tiến như tạo sinh đa phương thức và truy xuất dữ liệu ngoài, nhằm thúc đẩy sự phát triển của AI nguồn mở và tạo điều kiện cho nghiên cứu và ứng dụng AI.

Citations:
[1] https://www.pcmag.com/news/ibm-open-sources-granite-ai-models-launches-instructlab-platform

Không có file đính kèm.

Nguồn tham khảo

117

AI mở-nguồn mở 2024-05-07 09:56:52

Deepseek v2 đánh bại mixtral 8x22b với hiệu suất vượt trội và tiết kiệm chi phí

- DeepSeek-V2 là mô hình ngôn ngữ Mixture-of-Experts (MoE) mạnh mẽ với 236B tham số tổng cộng, trong đó 21B được kích hoạt cho mỗi token.
- So với DeepSeek 67B, DeepSeek-V2 đạt hiệu suất mạnh mẽ hơn, tiết kiệm 42,5% chi phí đào tạo, giảm bộ nhớ cache KV 93,3% và tăng thông lượng tạo tối đa lên 5,76 lần.
- Có thể tải xuống mô hình DeepSeek-V2 và DeepSeek-V2-Chat(RL) trên 🤗 HuggingFace.
- Mã nguồn mở hiện có hiệu suất chậm hơn so với codebase nội bộ khi chạy trên GPU với Huggingface. DeepSeek cung cấp giải pháp vllm chuyên dụng tối ưu hóa hiệu suất để chạy mô hình hiệu quả.
- DeepSeek-V2 hoạt động tốt trên tất cả các độ dài cửa sổ ngữ cảnh lên đến 128K trong các bài kiểm tra Needle In A Haystack (NIAH).
- DeepSeek-V2 Chat(RL) đạt điểm cao nhất trên các bài kiểm tra MMLU, BBH, C-Eval, CMMLU so với các mô hình khác như LLaMA3 70B, Mixtral, ChatMixtral 8x22B.
- DeepSeek cung cấp API tương thích OpenAI tại DeepSeek Platform với hàng triệu token miễn phí và giá cả cạnh tranh.
- Để sử dụng DeepSeek-V2 ở định dạng BF16 để suy luận, cần 80GB*8 GPU. Có thể sử dụng trực tiếp Transformers của Huggingface để suy luận mô hình.
- Kho lưu trữ mã được cấp phép theo Giấy phép MIT. Việc sử dụng các mô hình DeepSeek-V2 Base/Chat tuân theo Giấy phép Mô hình. DeepSeek-V2 hỗ trợ sử dụng thương mại.

📌 DeepSeek-V2 là mô hình ngôn ngữ MoE mạnh mẽ với 236B tham số, tiết kiệm 42,5% chi phí đào tạo và tăng thông lượng tạo lên 5,76 lần so với DeepSeek 67B. Nó đạt điểm cao nhất trên nhiều bài kiểm tra và cung cấp API tương thích OpenAI. Mã nguồn mở được cấp phép MIT và hỗ trợ sử dụng thương mại.

Citations:
[1] https://github.com/deepseek-ai/DeepSeek-V2

Không có file đính kèm.

Nguồn tham khảo

148

AI nhỏ AI mở-nguồn mở 2024-05-07 07:33:46

Taide: Dự án AI của Đài Loan nêu bật ý nghĩa địa chính trị

- Dự án Taide của Đài Loan được công bố vào tháng 2 năm 2023, nhằm phát triển một mô hình ngôn ngữ lớn (LLM) trong nước để tận dụng lợi ích kinh tế và bảo vệ dân số khỏi ảnh hưởng ngoại lai.
- Taide được thiết kế để phục vụ chủ yếu cho thị trường nội địa Đài Loan, sử dụng dữ liệu trong nước bao gồm các báo cáo chính phủ và tin tức, được viết bằng chữ Trung Quốc truyền thống và phản ánh ngữ pháp và cách nói địa phương.
- Mô hình này được ra mắt vào ngày 29 tháng 4 năm 2024, với kinh phí phát triển là 7,4 triệu USD, nhằm cải thiện hiệu quả trong các doanh nghiệp và tổ chức bằng cách tích hợp vào hoạt động kỹ thuật số của họ.

- Một chuyên gia AI kỳ cựu lập luận rằng Taide sẽ cần gần 3 tỷ Đài tệ (100 triệu USD) để tạo ra một mô hình toàn diện hơn sẽ được sử dụng rộng rãi.
- Các chuyên gia công nghệ Đài Loan lạc quan về khả năng của Taide trong việc thúc đẩy GDP quốc gia thông qua việc giữ gìn giá trị kinh tế từ sản xuất và tiêu dùng LLM trong nước.
- Taide cũng được kỳ vọng mang lại nhiều lợi ích liên quan đến an ninh, đặc biệt là trong việc ngăn chặn rủi ro thu thập dữ liệu người dùng Đài Loan bởi các công ty nước ngoài có liên kết với các thế lực độc hại.
- Mặc dù Taide chỉ sử dụng một phần nhỏ số liệu so với ChatGPT (7 tỷ so với 175 tỷ tham số dữ liệu), và hiện tại dự án này đang đối mặt với hạn chế về năng lực tính toán, các nhà phát triển tại Đài Loan vẫn tin tưởng vào giá trị của nó mà không nhất thiết phải sánh ngang với các mô hình quốc tế.
- Taide không chỉ là một bước tiến trong công nghệ mà còn là minh chứng cho cam kết của Đài Loan trong việc củng cố dân chủ số và tăng cường vị thế địa chính trị của mình thông qua sự đổi mới và giá trị dân chủ.

📌 Dự án Taide của Đài Loan, với kinh phí 7,4 triệu USD chỉ sử dụng một phần nhỏ số liệu so với ChatGPT (7 tỷ so với 175 tỷ tham số dữ liệu) và được phát triển dựa trên dữ liệu địa phương, không chỉ nhằm cải thiện hiệu quả kinh doanh mà còn tăng cường an ninh quốc gia. Taide vẫn được kỳ vọng sẽ đóng góp vào sự phát triển kinh tế và địa chính trị của Đài Loan trong dài hạn. Một chuyên gia AI kỳ cựu lập luận rằng Taide sẽ cần gần 3 tỷ Đài tệ (100 triệu USD) để tạo ra một mô hình toàn diện hơn sẽ được sử dụng rộng rãi.

Citations:
[1] https://ketagalanmedia.com/2024/05/06/taide-taiwans-own-ai-project-highlights-geopolitical-implications/

Không có file đính kèm.

Nguồn tham khảo

170

AI nhỏ AI mở-nguồn mở 2024-05-06 11:45:54

Soket AI Labs ra mắt Pragna-1B, mô hình đa ngữ Ấn Độ đầu tiên mở, nhỏ

- Soket AI Labs giới thiệu Pragna-1B, mô hình đa ngữ mã nguồn mở đầu tiên của Ấn Độ, hỗ trợ tiếng Hindi, Gujarati, Bangla và tiếng Anh.
- Pragna-1B là bước tiến quan trọng hướng tới công nghệ AI hòa nhập, vượt qua rào cản ngôn ngữ và tăng cường tương tác người dùng trên các bối cảnh ngôn ngữ đa dạng.
- Mô hình sử dụng kiến trúc Transformer Decoder với 1,25 tỷ tham số và độ dài ngữ cảnh 2048 token.
- Quá trình huấn luyện Pragna-1B tập trung vào tiếng Hindi, Bangla và Gujarati, xử lý khoảng 150 tỷ token.
- Mô hình được thiết kế để triển khai hiệu quả trên thiết bị, mang lại hiệu suất tốt nhất cho các ngôn ngữ bản địa trong kích thước nhỏ gọn.
- Mặc dù có số lượng tham số khiêm tốn, hiệu suất của Pragna-1B tương đương với các mô hình 7 tỷ tham số lớn hơn.
- Pragna-1B được huấn luyện kỹ lưỡng trên các bộ dữ liệu được biên soạn riêng cho bối cảnh Ấn Độ, đảm bảo đầu ra chính xác và phù hợp về mặt văn hóa.
- Mô hình sử dụng bộ mã hóa Byte-Pair (BPE) tokenizer, được huấn luyện đặc biệt để xử lý các ngôn ngữ Ấn Độ, đạt kích thước từ vựng 69.632.
- Soket AI Labs tạo ra "Bhasha", một loạt bộ dữ liệu chất lượng cao được thiết kế riêng để huấn luyện các mô hình ngôn ngữ Ấn Độ.
- Bhasha-wiki bao gồm 44,1 triệu bài viết được dịch từ Wikipedia tiếng Anh sang 6 ngôn ngữ Ấn Độ.
- Bhasha-wiki-indic là tập con tinh chỉnh của Bhasha-wiki, tập trung vào nội dung liên quan đến Ấn Độ.
- Bhasha-SFT tạo điều kiện phát triển ngôn ngữ.

📌 Pragna-1B của Soket AI Labs là mô hình ngôn ngữ đa ngữ mã nguồn mở đầu tiên của Ấn Độ, hỗ trợ tiếng Hindi, Gujarati, Bangla và Anh với 1,25 tỷ tham số. Mô hình mang lại hiệu suất tốt nhất cho các ngôn ngữ bản địa, được huấn luyện trên bộ dữ liệu Bhasha 44,1 triệu bài viết, đánh dấu bước tiến quan trọng hướng tới AI hòa nhập.

Citations:
[1] https://analyticsindiamag.com/soket-ai-labs-unveils-pragna-1b-multilingual-indic-language-model/

Không có file đính kèm.

Nguồn tham khảo

188

AI benchmark AI mở-nguồn mở 2024-05-06 06:16:04

Prometheus 2 là mô hình ngôn ngữ nguồn mở mới, được thiết kế để đánh giá các mô hình ngôn ngữ khác

- Nhóm nghiên cứu từ KAIST AI, LG AI Research, Carnegie Mellon University, MIT, Allen Institute for AI và University of Illinois Chicago giới thiệu Prometheus 2, một công cụ đánh giá mô hình ngôn ngữ nguồn mở mới.
- Prometheus 2 được phát triển để cung cấp đánh giá minh bạch, có thể mở rộng và kiểm soát được, đồng thời đạt chất lượng tương đương với các mô hình độc quyền.
- Mô hình được tạo ra bằng cách kết hợp hai mô hình đánh giá: một mô hình được huấn luyện chuyên biệt cho đánh giá trực tiếp và một mô hình cho xếp hạng theo cặp.
- Nhóm nghiên cứu sử dụng bộ dữ liệu Preference Collection mới với 1.000 tiêu chí đánh giá để tinh chỉnh khả năng của mô hình.
- Trên 4 bài kiểm tra xếp hạng theo cặp (HHH Alignment, MT Bench Human Judgment, Auto-J Eval và Preference Bench), Prometheus 2 vượt trội hơn các mô hình nguồn mở hiện có, đạt độ chính xác trên 85%.
- Prometheus 2 thu hẹp khoảng cách hiệu suất với các công cụ đánh giá độc quyền như GPT-4 trên nhiều bài kiểm tra. Mô hình giảm một nửa sự khác biệt tương quan giữa con người và GPT-4 trên bài kiểm tra FLASK và đạt độ chính xác 84% trong đánh giá HHH Alignment.

📌 Prometheus 2, một công cụ đánh giá mô hình ngôn ngữ nguồn mở mới, đạt hiệu suất vượt trội so với các mô hình nguồn mở hiện có trên nhiều bài kiểm tra, thu hẹp đáng kể khoảng cách với GPT-4. Kết hợp hai mô hình đánh giá trực tiếp và xếp hạng theo cặp, Prometheus 2 đạt độ chính xác trên 85% và giảm một nửa sự khác biệt tương quan so với GPT-4 trên bài kiểm tra FLASK.

Citations:
[1] https://www.marktechpost.com/2024/05/04/prometheus-2-an-open-source-language-model-that-closely-mirrors-human-and-gpt-4-judgements-in-evaluating-other-language-models/

Không có file đính kèm.

Nguồn tham khảo

169

AI mở-nguồn mở 2024-05-05 07:43:23

LLM2Vec biến Llama 3 thành mô hình embedding, giúp cải thiện hiệu suất của retrieval-augmented generation (RAG) cho các mô hình ngôn ngữ lớn

- LLM2Vec là một phương pháp biến Llama 3 thành mô hình embedding, giúp cải thiện hiệu suất của retrieval-augmented generation (RAG) cho các mô hình ngôn ngữ lớn (LLMs).
- Mô hình embedding đóng vai trò quan trọng trong RAG, chúng mã hóa cơ sở tri thức và truy vấn do người dùng viết.
- Việc sử dụng mô hình embedding được huấn luyện hoặc tinh chỉnh cho cùng lĩnh vực với LLM có thể tăng cường đáng kể chất lượng của các đoạn văn được tạo ra.
- LLM2Vec tận dụng sức mạnh của Llama 3, một mô hình ngôn ngữ lớn, để tạo ra các embedding chất lượng cao.
- Phương pháp này mở ra tiềm năng to lớn trong việc cải thiện hiệu suất của các hệ thống RAG, giúp tạo ra văn bản tự nhiên và chính xác hơn.

📌 LLM2Vec đánh dấu bước tiến quan trọng trong việc tận dụng sức mạnh của Llama 3 để tạo ra các mô hình embedding chất lượng cao. Phương pháp này hứa hẹn sẽ cải thiện đáng kể hiệu suất của retrieval-augmented generation, mở ra tiềm năng to lớn trong việc tạo ra văn bản tự nhiên và chính xác hơn cho các ứng dụng AI.

Citations:
[1] https://medium.com/m/global-identity-2?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fturn-llama-3-into-an-embedding-model-with-llm2vec-8448005f99aa

Không có file đính kèm.

Nguồn tham khảo

131

AI mở-nguồn mở 2024-05-05 07:39:12

Llama-3-8B-Instruct-80K-QLoRA: mô hình mới từ các nhà nghiên cứu Trung Quốc, mở rộng độ dài ngữ cảnh của Llama-3 từ 8K lên 80K token

- Các nhà nghiên cứu từ Học viện Trí tuệ Nhân tạo Bắc Kinh và Đại học Renmin Trung Quốc giới thiệu Llama-3-8B-Instruct-80K-QLoRA.
- Mô hình mở rộng đáng kể độ dài ngữ cảnh của Llama-3 gốc từ 8K lên 80K token.
- Phương pháp này nổi bật với khả năng duy trì hiểu biết ngữ cảnh qua các chuỗi văn bản dài đồng thời giảm yêu cầu tính toán.
- Sử dụng GPT-4 để tạo 3.5K mẫu huấn luyện cho các tác vụ Single-Detail QA, Multi-Detail QA và Biography Summarization.
- Fine-tune Llama-3-8B-Instruct-80K-QLoRA bằng QLoRA, áp dụng LoRA trên các lớp projection và huấn luyện lớp embedding.
- Kết hợp dữ liệu RedPajama, LongAlpaca và dữ liệu tổng hợp để tránh quên và tăng cường hiểu biết ngữ cảnh.
- Hiệu suất của mô hình trên các bài kiểm tra như LongBench và InfBench cho thấy khả năng xử lý chính xác các chuỗi văn bản dài.
- Nghiên cứu này thúc đẩy nghiên cứu NLP bằng cách cung cấp mô hình hiểu và xử lý ngữ cảnh dài một cách hiệu quả.

📌 Llama-3-8B-Instruct-80K-QLoRA là bước tiến quan trọng trong việc mở rộng khả năng hiểu ngữ cảnh của AI, xử lý hiệu quả văn bản dài 80 nghìn token, mở đường cho các ứng dụng NLP tiên tiến hơn.

Citations:
[1] https://www.marktechpost.com/2024/05/02/this-ai-paper-introduces-llama-3-8b-instruct-80k-qlora-new-horizons-in-ai-contextual-understanding/

Không có file đính kèm.

Nguồn tham khảo

139

AI mở-nguồn mở 2024-05-05 07:16:10

10 use case điên rồ của Llama-3 đang gây sốt cộng đồng AI

- Llama-3 8B với context length hơn 1 triệu token: Mô hình Llama-3 8B Gradient Instruct 1048k mở rộng context length từ 8k lên hơn 1 triệu, cho thấy LLM SOTA có thể quản lý context dài hiệu quả với ít training bằng cách điều chỉnh RoPE theta.
- Ứng dụng RAG chạy Llama-3 cục bộ: Bạn có thể xây dựng ứng dụng RAG với Llama-3 chạy trên máy cục bộ.
- Mô hình nông nghiệp KissanAI Dhenu1.0: Mô hình này được tinh chỉnh trên Llama-3 8B với 150.000 câu lệnh, tập trung vào Ấn Độ và ai cũng có thể tải về, chỉnh sửa, phản hồi.
- Nhà vô địch gọi công cụ Llama-3 70B trên GroqInc: Mô hình 70B vượt qua thử thách khi đưa ra truy vấn, rất nhanh và có giá tốt nhất. Nó cũng đạt kết quả xuất sắc trong các bài kiểm tra, benchmark.
- Copilot siêu nhanh trong VSCode: Copilot chạy trên Llama-3 cực kỳ nhanh và mạnh mẽ.
- TherapistAI.com chạy trên Llama-3 70B: Gần bằng GPT-4, mô hình này nâng cao đáng kể khả năng hội thoại, cho phép tương tác qua lại, tập trung giải quyết vấn đề.
- Trợ lý nghiên cứu dựa trên Llama-3 trên Groq: Bạn có thể xây dựng trợ lý tìm kiếm thông tin về chủ đề phức tạp trên web, gửi cho Llama-3 trên Groq và nhận lại bản tóm tắt chuyên sâu.
- Trợ lý pháp lý dựa trên Llama-3: Có thể trả lời các câu hỏi pháp lý, soạn thảo hợp đồng, phân tích án lệ...một cách nhanh chóng và chính xác.
- Trợ lý y tế dựa trên Llama-3: Hỗ trợ chẩn đoán, đưa ra lời khuyên sức khỏe, giải thích thuật ngữ y học, tóm tắt hồ sơ bệnh án...
- Ứng dụng giáo dục dựa trên Llama-3: Soạn giáo án, giải thích khái niệm, chấm bài tập, đưa ra phản hồi cho học sinh...

📌 Llama-3 của Meta đã chứng minh sức mạnh đáng kinh ngạc qua 10 use case ấn tượng như mở rộng context lên hơn 1 triệu token, xây dựng các ứng dụng RAG, trợ lý chuyên biệt trong nông nghiệp, y tế, giáo dục, pháp luật với hiệu năng vượt trội và chi phí hợp lý. Điều này hứa hẹn đưa Llama-3 trở thành một trong những nền tảng AI hàng đầu trong tương lai gần.

Citations:
[1] https://analyticsindiamag.com/10-wild-use-cases-for-llama-3/

Không có file đính kèm.

Nguồn tham khảo

181

AI mở-nguồn mở 2024-05-05 07:12:41

Llama-3 70B Instruct Gradient 1048K: siêu mô hình ngữ cảnh dài 1 triệu token

- Llama-3 70B Instruct Gradient 1048K là mô hình do Gradient phát triển, mở rộng độ dài ngữ cảnh của Llama-3 70B từ 8k lên hơn 1048K token.
- Mô hình được tài trợ tính toán bởi Crusoe Energy và chỉ cần huấn luyện trên 34 triệu token cho giai đoạn này, tổng cộng ~430 triệu token cho tất cả các giai đoạn, tương đương < 0,003% dữ liệu tiền huấn luyện gốc của Llama-3.
- Phương pháp tiếp cận bao gồm sử dụng meta-llama/Meta-Llama-3-70B-Instruct làm cơ sở, nội suy NTK-aware theo quy luật tỷ lệ để thiết lập lịch trình tối ưu cho RoPE theta, huấn luyện tiệm cận trên các độ dài ngữ cảnh tăng dần.
- Dữ liệu huấn luyện được tạo ra bằng cách tăng cường SlimPajama để tạo ngữ cảnh dài. Mô hình cũng được tinh chỉnh trên tập dữ liệu trò chuyện dựa trên UltraChat.
- Quá trình huấn luyện tiệm cận trải qua các giai đoạn 65K, 262K, 524K và 1048K token, với độ dài chuỗi, RoPE theta, kích thước batch và số bước tích lũy gradient tăng dần.

📌 Llama-3 70B Instruct Gradient 1048K (1 triệu token) thể hiện khả năng vượt trội của các mô hình ngôn ngữ tiên tiến trong việc học hoạt động trên ngữ cảnh dài với lượng huấn luyện tối thiểu, chỉ cần 430 triệu token, tương đương < 0,003% dữ liệu gốc, nhờ điều chỉnh thích hợp RoPE theta và huấn luyện tiệm cận.

Citations:
[1] https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k

Không có file đính kèm.

Nguồn tham khảo

168

AI mở-nguồn mở AI báo chí 2024-05-05 00:59:46

X ra mắt tính năng tóm tắt tin tức bằng AI nhưng vẫn còn sai sót

• Người dùng X Premium giờ đây có thể đọc các bản tóm tắt tin tức được tạo bởi công cụ AI Grok của công ty.
• Tính năng "Stories on X" được mô tả như một cách để người dùng "thấy thế giới đang nói về điều gì".
• Công cụ này hiện chỉ có sẵn cho người dùng web và iOS, nằm trong tab Khám phá dành cho người đăng ký Premium.
• "Stories on X" được tạo ra từ các bài đăng trên X, một số tóm tắt các tin tức cụ thể, số khác tóm tắt các cuộc trò chuyện đang diễn ra trên nền tảng.
• Tính năng này tương tự như Twitter Moments trước đây, nhưng sử dụng AI thay vì một nhóm biên tập viên người.
• Các bản tóm tắt của Grok đi kèm với tuyên bố miễn trừ rằng nó có thể mắc lỗi và cần xác minh.
• Grok từng quảng bá các tin tức giả về các sự kiện thế giới, chẳng hạn như tuyên bố sai về kết quả bầu cử ở Ấn Độ và Iran tấn công Tel Aviv.
• AI trong hình thức hiện tại thường hiểu sai các bài đăng của con người và đôi khi tự tạo ra "sự thật" của riêng mình.
• X lưu ý rằng các bản tóm tắt có thể thay đổi theo thời gian.

📌 X (trước đây là Twitter) đã ra mắt tính năng "Stories on X" sử dụng AI để tóm tắt tin tức, tuy nhiên vẫn tồn tại những hạn chế như hiểu sai thông tin và đưa ra các "sự thật" không chính xác. Người dùng cần cẩn trọng khi đọc các bản tóm tắt này và xác minh lại thông tin.

Citations:
[1] https://www.pcmag.com/news/x-now-displays-ai-generated-summaries-of-news-events

Không có file đính kèm.

Nguồn tham khảo

192

AI sinh-y-duoc AI mở-nguồn mở 2024-05-01 07:40:37

OpenBioLLM-Llama3 70B và 8B: vượt trội GPT-4, Gemini trong lĩnh vực y tế

- Một nhóm các nhà nghiên cứu đã giới thiệu các mô hình OpenBioLLM-Llama3-70B và 8B, là những mô hình ngôn ngữ lớn (LLM) tiên tiến nhất trong lĩnh vực y tế.
- Các mô hình này có tiềm năng cách mạng hóa hoàn toàn xử lý ngôn ngữ tự nhiên (NLP) y tế bằng cách thiết lập các tiêu chuẩn mới về chức năng và hiệu suất.
- OpenBioLLM-Llama3-70B và 8B vượt trội hơn các mô hình như GPT-4, Gemini, Meditron-70B, Med-PaLM-1 và Med-PaLM-2 trong các tác vụ sinh y, thể hiện sự vượt trội và đột phá đáng kể về khả năng sử dụng và hiệu quả của các mô hình ngôn ngữ y tế.
- OpenBioLLM-70B đã chứng minh hiệu suất tốt nhất, thể hiện khả năng vượt trội so với kích thước của nó, vượt qua GPT-3.5, Gemini và Meditron-70B.
- Quá trình phát triển bao gồm tối ưu hóa ưu tiên trực tiếp (DPO) và tinh chỉnh cẩn thận sử dụng các mô hình LLama-3 70B và 8B làm nền tảng, đảm bảo OpenBioLLM-Llama3-70B và 8B được tối ưu hóa cho các ứng dụng y tế thực tế.
- Việc phát hành OpenBioLLM-Llama3-70B và 8B đánh dấu kỷ nguyên mới trong NLP y tế với hiệu suất, khả năng tiếp cận và tính thực tiễn được cải thiện trong các bối cảnh chăm sóc sức khỏe.
- Các mô hình này có tiềm năng cách mạng hóa hoàn toàn AI y tế và mở ra cánh cửa cho các giải pháp chăm sóc sức khỏe hiệu quả, chính xác và đạo đức hơn.

📌 OpenBioLLM-Llama3-70B và 8B đánh dấu bước đột phá trong công nghệ LLM y tế với khả năng vượt trội so với GPT-4, Gemini và các mô hình khác. Chúng hứa hẹn cách mạng hóa NLP y tế, mở ra tiềm năng to lớn cho AI y tế và các giải pháp chăm sóc sức khỏe hiệu quả, chính xác và đạo đức hơn trong tương lai.

Citations:
[1] https://www.marktechpost.com/2024/04/29/llama-3-based-openbiollm-llama3-70b-and-8b-outperforming-gpt-4-gemini-meditron-70b-med-palm-1-and-med-palm-2-in-medical-domain/

Không có file đính kèm.

Nguồn tham khảo

166

AI tools AI mở-nguồn mở 2024-04-30 12:44:11

GitHub ra mắt Copilot Workspace: Công cụ đột phá cho lập trình viên

- GitHub đã giới thiệu Copilot Workspace, một môi trường phát triển AI từ cốt lõi, cho phép lập trình viên sử dụng ngôn ngữ tự nhiên để lên ý tưởng, lập kế hoạch, xây dựng, kiểm thử và chạy mã nhanh chóng và dễ dàng hơn.
- Copilot Workspace khác biệt với Copilot trước đây ở chỗ nó hỗ trợ các tác vụ phức tạp hơn và giảm ma sát cần thiết để bắt đầu một tác vụ.
- GitHub đã cải tiến Copilot bằng cách nâng cấp các gợi ý mã và thêm một cách tiếp cận đa mô hình, hỗ trợ mô hình GPT-4 của OpenAI và ra mắt kế hoạch doanh nghiệp.
- Copilot Workspace bao gồm các tính năng chính như khả năng chỉnh sửa ở mọi cấp độ, một terminal tích hợp có chức năng chuyển tiếp cổng an toàn, chức năng hợp tác và trải nghiệm di động được tối ưu hóa.
- Môi trường này không chỉ giới hạn trên web mà còn có thể truy cập trên các thiết bị di động, cho phép lập trình viên bắt đầu dự án mới mọi lúc, mọi nơi.
- GitHub không coi Copilot Workspace là một thay thế cho các ứng dụng di động hiện có như GitHub Codespaces và ứng dụng GitHub, mà là bổ sung cho trải nghiệm di động hiện tại.
- Copilot Workspace hiện đang ở giai đoạn xem trước kỹ thuật và chưa có thời gian biểu cụ thể cho khi nào môi trường này sẽ có sẵn rộng rãi.

📌 GitHub Copilot Workspace là một bước tiến lớn trong việc tích hợp AI vào môi trường phát triển phần mềm, với các tính năng như chỉnh sửa linh hoạt, terminal tích hợp, và hỗ trợ cộng tác. Môi trường này hứa hẹn sẽ tăng năng suất và sự hài lòng trong công việc cho các nhà phát triển doanh nghiệp.

Citations:
[1] https://venturebeat.com/ai/github-previews-copilot-workspace/

Không có file đính kèm.

Nguồn tham khảo

162

AI nhỏ AI mở-nguồn mở 2024-04-28 06:41:10

Microsoft Phi-3 Mini: AI siêu nhỏ gọn đạt hiệu suất như ChatGPT

Dưới đây là tóm tắt nội dung từ URL mà bạn cung cấp:

Meta description: Microsoft vừa ra mắt Phi-3 Mini, một mô hình AI cực nhỏ gọn với chỉ 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa ChatGPT, có thể chạy trên điện thoại hoặc laptop mà không cần kết nối đám mây.

Meta keywords: Microsoft Phi-3 Mini, mô hình AI nhỏ gọn, 3,8 tỷ tham số, hiệu suất như ChatGPT, chạy cục bộ trên thiết bị

SEO title: Microsoft Phi-3 Mini: AI siêu nhỏ gọn đạt hiệu suất như ChatGPT

Tóm tắt chi tiết:

- Microsoft vừa giới thiệu Phi-3 Mini, một mô hình AI cực kỳ nhỏ gọn với chỉ 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa các mô hình ngôn ngữ lớn nhất hiện nay.

- Phi-3 Mini là mô hình đầu tiên trong 3 mô hình AI nhỏ gọn mà Microsoft đang phát triển, tiếp theo sẽ là Phi-3 Small (7 tỷ tham số) và Phi-3 Medium (14 tỷ tham số).

- Mặc dù chỉ có 3,8 tỷ tham số, Phi-3 Mini có thể tạo ra kết quả gần tương đương với mô hình GPT-3.5 175 tỷ tham số đang chạy ChatGPT miễn phí và mô hình Mixtral 8x7B của công ty AI Pháp Mistral.

- Phi-3 Mini đủ nhỏ gọn để chạy cục bộ trên thiết bị mà không cần kết nối đám mây. Nó có thể xử lý tối đa 4.000 token ngữ cảnh cùng lúc, với phiên bản đặc biệt 128k token cũng có sẵn.

- Các nhà nghiên cứu của Microsoft đã đạt được kết quả ấn tượng này bằng cách tập trung mô hình 3,8 tỷ tham số tương đối nhỏ vào một tập dữ liệu được biên soạn cực kỳ kỹ lưỡng gồm nội dung web chất lượng cao và tài liệu tổng hợp được phát triển từ các mô hình Phi trước đó.

📌 Microsoft đã tạo ra một bước đột phá với Phi-3 Mini, một mô hình AI siêu nhỏ gọn 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa các mô hình khổng lồ như GPT-3.5 175 tỷ tham số. Phi-3 Mini có thể chạy cục bộ trên điện thoại hoặc laptop mà không cần kết nối đám mây nhờ việc tập trung vào một tập dữ liệu chất lượng cao được biên soạn kỹ lưỡng.

Citations:
[1] https://www.techspot.com/news/102766-microsoft-phi-3-mini-boasts-chatgpt-level-performance.html

Không có file đính kèm.

Nguồn tham khảo

170

AI mở-nguồn mở 2024-04-26 16:50:31

Tin nóng: VinaLlama2 - Mô hình ngôn ngữ lớn đa phương thức thế hệ mới của Việt Nam

- VinaLlama2 là thế hệ thứ hai của mô hình ngôn ngữ lớn tiếng Việt, được phát triển bởi VILM và Alibaba Qwen.
- Mô hình có 4 phiên bản: Turbo, Standard, Pro và SUPER, cùng với biến thể VinaLlama2-Code dành cho các tác vụ lập trình.
- Bộ dữ liệu huấn luyện của VinaLlama2 được xây dựng từ đầu, bao gồm các nguồn sách văn học và lập trình được cấp phép hợp pháp.
- Thay vì 800 tỷ token như phiên bản đầu tiên, VinaLlama2 sử dụng 80 tỷ token dữ liệu tiếp tục tiền huấn luyện chất lượng cao.
- Các giai đoạn tinh chỉnh được kết hợp thành một quá trình duy nhất gọi là Odds Ratio Preference Optimization (ORPO).
- VinaLlama2 được huấn luyện trên 64 cụm máy tính H100 do Alibaba Cloud cung cấp.
- Phiên bản VinaLlama2-Preview sẽ ra mắt vào tháng 7, hỗ trợ đa phương thức giữa văn bản, hình ảnh và âm thanh.
- VinaLlama2-Code, dựa trên CodeQwen-7B, đảm bảo hiệu suất tốt nhất trong các tác vụ lập trình bằng tiếng Việt.

📌 VinaLlama2 đánh dấu bước tiến mới trong công nghệ mô hình ngôn ngữ lớn tại Việt Nam với khả năng đa phương thức, bộ dữ liệu huấn luyện chất lượng cao 80 tỷ token và sức mạnh tính toán từ 64 cụm H100 của Alibaba Cloud. Phiên bản VinaLlama2-Preview hứa hẹn sẽ mang đến trải nghiệm tương tác đa dạng giữa văn bản, hình ảnh và âm thanh khi ra mắt vào tháng 7 này.

Citations:
[1] https://www.vilm.org/vinallama2

Không có file đính kèm.

Nguồn tham khảo

188

AI consumer devices AI nhỏ AI mở-nguồn mở 2024-04-26 06:22:20

Apple ra mắt OpenELM: 8 mô hình ngôn ngữ lớn mã nguồn mở chạy trực tiếp trên thiết bị

- Apple giới thiệu OpenELM (Open-source Efficient Language Models) gồm 8 mô hình ngôn ngữ lớn (LLMs) hoạt động trực tiếp trên thiết bị thay vì dựa vào máy chủ đám mây.

- Các mô hình OpenELM đã có trên nền tảng chia sẻ mã nguồn AI Hugging Face Hub.

- Theo white paper, Apple sử dụng 2 loại mô hình OpenELM: 4 mô hình pre-trained bằng thư viện CoreNet và 4 mô hình instruction-tuned.

- Apple áp dụng chiến lược layer-wise scaling để tăng cường độ chính xác và hiệu quả.

- Ngoài mô hình cuối cùng, Apple còn cung cấp mã nguồn, log huấn luyện và nhiều phiên bản khác nhau.

- Các nhà nghiên cứu kỳ vọng cách tiếp cận này sẽ thúc đẩy tiến bộ và mang lại "kết quả đáng tin cậy hơn" trong lĩnh vực AI ngôn ngữ tự nhiên.

- OpenELM phá vỡ thông lệ trước đây khi chỉ chia sẻ trọng số mô hình và mã suy luận, huấn luyện trên bộ dữ liệu độc quyền. Giờ đây, Apple chia sẻ toàn bộ framework để huấn luyện và đánh giá mô hình trên bộ dữ liệu công khai.

- Apple phát hành OpenELM nhằm "làm giàu và trao quyền cho cộng đồng nghiên cứu mở" với các mô hình ngôn ngữ tiên tiến. Nhà nghiên cứu có thể khám phá rủi ro, dữ liệu và độ chệch. Nhà phát triển và công ty có thể tùy chỉnh mô hình theo nhu cầu.

- Việc Apple chia sẻ thông tin mở đã trở thành công cụ quan trọng để thu hút các kỹ sư, nhà khoa học và chuyên gia hàng đầu, tạo cơ hội cho các nghiên cứu trước đây không thể thực hiện dưới chính sách bảo mật của Apple.

📌 Apple đã giới thiệu OpenELM với 8 mô hình ngôn ngữ lớn mã nguồn mở chạy trực tiếp trên thiết bị. Việc chia sẻ toàn bộ framework huấn luyện trên dữ liệu công khai đánh dấu bước đột phá so với trước đây, hứa hẹn thúc đẩy nghiên cứu AI và thu hút nhân tài về Apple.

Citations:
[1] https://www.macrumors.com/2024/04/24/apple-ai-open-source-models/

Không có file đính kèm.

Nguồn tham khảo

169

AI mở-nguồn mở 2024-04-25 03:00:44

Hugging Face chứng kiến sự bùng nổ của hàng nghìn mô hình Llama 3

- Meta đã phát hành phiên bản sớm của mô hình ngôn ngữ lớn mới nhất, Llama 3, và nhận được sự đón nhận rất lớn từ cộng đồng.
- Hugging Face đã có hơn 1000 biến thể của Llama 3 được chia sẻ công khai và dự kiến sẽ đạt 10.000 biến thể vào cuối tuần tới.
- Llama 3 bao gồm một bộ tạo sinh hình ảnh có thể cập nhật ảnh theo thời gian thực khi người dùng nhập lệnh.
- Meta phát hành hai phiên bản của Llama 3: một với 8 tỷ tham số và một với 70 tỷ tham số.
- Cả hai kích thước của Llama 3 đều vượt trội hơn các mô hình cùng kích thước như Gemma và Gemini của Google, Mistral 7B và Claude 3 của Anthropic trên một số bài kiểm tra đánh giá.
- Mô hình 8B của Llama 3 được cho là vượt trội hơn mô hình 70B của Llama 2 trên các bài đánh giá.
- Số lượng token trong Llama 3 đã tăng gấp 4 lần, từ 32.000 (Llama 2) lên 128.000, giúp nén chuỗi hiệu quả hơn, trích dẫn ít token hơn 15% và mang lại hiệu suất tốt hơn.
- Andrej Karpathy, giám đốc AI tại Tesla, ủng hộ việc phát hành các mô hình cơ sở và tinh chỉnh với kích thước 8B và 70B, đồng thời nhấn mạnh sự cần thiết của các mô hình nhỏ hơn cho mục đích giáo dục, kiểm thử đơn vị và ứng dụng nhúng.
- GroqInc giới thiệu 'Llama 3 Researcher', cung cấp Llama 3 8B với tốc độ 876 token/giây, nhanh nhất trong số các mô hình được đánh giá.
- Groq đang tạo ra 800 token mỗi giây trên Llama 3, mở ra khả năng cho các trường hợp sử dụng mới với nhiều hành động diễn ra đồng thời.

📌 Llama 3 của Meta đã tạo ra một làn sóng mới trong cộng đồng AI với hơn 1000 biến thể được chia sẻ trên Hugging Face chỉ trong một tuần và dự kiến sẽ đạt 10.000 biến thể vào cuối tuần tới. Mô hình này vượt trội hơn các đối thủ cùng kích thước, đạt tốc độ token ấn tượng lên tới 876 token/giây và hứa hẹn mở ra nhiều khả năng ứng dụng mới nhờ khả năng xử lý đồng thời nhiều hành động.

Citations:
[1] https://analyticsindiamag.com/hugging-face-already-has-1000s-of-llama-3-models-and-counting/

Không có file đính kèm.

Nguồn tham khảo

160

AI mở-nguồn mở 2024-04-23 16:56:36

Alibaba và Baidu đua nhau hỗ trợ mô hình Llama 3 của Meta trên nền tảng đám mây

• Alibaba và Baidu đã nhanh chóng bổ sung hỗ trợ cho mô hình ngôn ngữ lớn Llama 3 của Meta trên nền tảng điện toán đám mây của họ.
• Đơn vị điện toán đám mây của Alibaba đã thêm Llama 3 vào cộng đồng mô hình AI nguồn mở ModelScope, cung cấp quyền truy cập vào nhiều mô hình AI nguồn mở.
• Alibaba Cloud mở rộng hỗ trợ cho các mô hình ngôn ngữ lớn của Meta trên nền tảng Bailian, cung cấp giải pháp đào tạo, suy luận và triển khai miễn phí trong thời gian giới hạn.
• Baidu là công ty công nghệ lớn đầu tiên của Trung Quốc hành động, cung cấp dịch vụ đào tạo và suy luận cho Llama 3 trên nền tảng dịch vụ mô hình Qianfan.
• Bailian là một nền tảng dịch vụ mô hình ngôn ngữ lớn cung cấp các công cụ và dịch vụ hỗ trợ khách hàng xây dựng và đào tạo mô hình riêng bằng dịch vụ điện toán đám mây của Alibaba.
• Qianfan được ra mắt để giúp khách hàng doanh nghiệp xây dựng, đào tạo và triển khai các ứng dụng AI.

📌 Alibaba và Baidu đã nhanh chóng hỗ trợ mô hình Llama 3 của Meta trên nền tảng đám mây, cung cấp dịch vụ đào tạo và suy luận miễn phí trong thời gian giới hạn. Điều này cho thấy sự cạnh tranh gay gắt giữa các gã khổng lồ công nghệ Trung Quốc trong lĩnh vực AI.

Citations:
[1] https://www.scmp.com/tech/tech-trends/article/3259945/alibaba-baidu-rush-add-support-metas-llama-3-their-cloud-computing-platforms

Không có file đính kèm.

Nguồn tham khảo

139

AI mở-nguồn mở 2024-04-21 07:37:05

Meta ra mắt mô hình AI "nguồn mở" Llama 3 gây tranh cãi về giấy phép

- Meta giới thiệu Llama 3 8B và Llama 3 70B, các mô hình AI tạo sinh mới nhất trong series Llama, có khả năng phân tích và tạo văn bản.
- Mặc dù được Meta gọi là "nguồn mở", các mô hình này đi kèm một số hạn chế về giấy phép như không được dùng để huấn luyện mô hình khác, các nhà phát triển ứng dụng có trên 700 triệu người dùng hàng tháng phải xin giấy phép đặc biệt.
- Khái niệm "nguồn mở" trong bối cảnh AI gây nhiều tranh cãi. Bản quyền, cơ chế sở hữu trí tuệ nền tảng của giấy phép nguồn mở, khó áp dụng cho các thành phần khác nhau của dự án AI.
- Nghiên cứu của các nhà khoa học từ Carnegie Mellon, AI Now Institute và Signal Foundation cho thấy nhiều mô hình AI được gọi là "nguồn mở" có những hạn chế đáng kể như giới hạn quyền truy cập dữ liệu, sức mạnh tính toán không đủ và chi phí lao động cao để tinh chỉnh.
- Trong một cuộc phỏng vấn, nhà nghiên cứu AI lâu năm Stuart Russell và nghiên cứu sinh Michael Cohen suy đoán về "Làm thế nào để ngăn AI giết chết tất cả chúng ta", một vấn đề cần giải quyết sớm hơn là muộn.

📌 Meta ra mắt Llama 3 8B và 70B, các mô hình AI tạo sinh "nguồn mở" nhưng đi kèm nhiều hạn chế giấy phép. Định nghĩa "nguồn mở" trong AI đang gây tranh cãi do khó áp dụng cơ chế bản quyền. Các chuyên gia cũng đang nghiên cứu cách kiểm soát AI để tránh nguy hiểm cho nhân loại.

Citations:
[1] https://techcrunch.com/2024/04/20/this-week-in-ai-when-open-source-isnt-so-open/

Không có file đính kèm.

Nguồn tham khảo

196

AI mở-nguồn mở 2024-04-19 03:31:32

hugging face ra mắt idefics2 - mô hình đa phương thức mã nguồn mở 8 tỷ tham số vượt trội

- Hugging Face giới thiệu Idefics2, một mô hình đa phương thức mã nguồn mở chấp nhận chuỗi đầu vào hình ảnh và văn bản tùy ý, tạo ra đầu ra văn bản.
- Mô hình có thể trả lời câu hỏi về hình ảnh, mô tả nội dung thị giác, tạo câu chuyện dựa trên nhiều hình ảnh hoặc đơn giản là hoạt động như một mô hình ngôn ngữ thuần túy mà không cần đầu vào thị giác.
- Idefics2 chỉ có 8 tỷ tham số nhưng vượt trội hơn đáng kể so với phiên bản tiền nhiệm Idefics1 và các mô hình ngôn ngữ lớn hơn như LLava-Next-34B và MM1-30B-chat trong các tác vụ thị giác.
- Mô hình được huấn luyện trên nhiều bộ dữ liệu công khai như tài liệu web, cặp hình ảnh-chú thích và dữ liệu OCR.
- Idefics2 được tinh chỉnh trên bộ dữ liệu mới "The Cauldron" tổng hợp 50 bộ dữ liệu được tuyển chọn cẩn thận để huấn luyện hội thoại đa dạng.
- Cải tiến kiến trúc quan trọng của Idefics2 là đơn giản hóa việc tích hợp các đặc trưng thị giác vào nền tảng ngôn ngữ thông qua Learned Perceiver Pooling và MLP modality projection.
- Idefics2 thể hiện cách tiếp cận tinh tế hơn trong xử lý hình ảnh, duy trì độ phân giải và tỷ lệ khung hình gốc, khác với các chuẩn thay đổi kích thước thông thường trong thị giác máy tính.

📌 Idefics2 của Hugging Face là một bước tiến ấn tượng trong lĩnh vực mô hình đa phương thức mã nguồn mở. Chỉ với 8 tỷ tham số, mô hình vẫn vượt trội các đối thủ lớn hơn trong các tác vụ thị giác nhờ kiến trúc cải tiến và huấn luyện trên tập dữ liệu đa dạng "The Cauldron".

Citations:
[1] https://analyticsindiamag.com/hugging-face-open-source-idefics-2-8b-multimodal-model/

Không có file đính kèm.

Nguồn tham khảo

118

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2024-04-19 03:06:31

Yann LeCun: Các nền tảng AI nguồn đóng sẽ kiểm soát tất cả những gì chúng ta thấy

- Theo Yann LeCun, một trong ba cha đẻ của AI, trong tương lai mọi tương tác của chúng ta với thế giới kỹ thuật số sẽ được điều phối bởi các trợ lý AI.
- Ông nhấn mạnh rằng các trợ lý AI sẽ trở thành kho chứa toàn bộ tri thức và văn hóa của nhân loại, giống như vai trò của internet ngày nay.
- LeCun kêu gọi các nền tảng AI phải là nguồn mở, nếu không sẽ rất nguy hiểm nếu chỉ một số ít công ty kiểm soát toàn bộ nguồn cung cấp thông tin kỹ thuật số của mọi công dân trên thế giới.
- Ông cho rằng điều này sẽ cực kỳ nguy hiểm cho sự đa dạng tư tưởng, cho nền dân chủ và hầu như mọi thứ.
- Đã có nhiều ví dụ cho thấy sự sai lệch và thiên vị khi chỉ một vài công ty nắm quyền kiểm soát việc tạo ra "sự hiểu biết văn hóa" cho cả thế giới.
- Nhiều chính phủ đang cân nhắc về lợi ích và nguy cơ của AI. Một số cho rằng AI quá nguy hiểm nên đang tìm cách quy định, thậm chí cấm AI nguồn mở.
- LeCun cho rằng điều này cực kỳ nguy hiểm cho tương lai của nhân loại và nhấn mạnh rằng sẽ quá nguy hiểm nếu AI bị kiểm soát bởi một số ít người.

📌 Yann LeCun, nhà khoa học AI hàng đầu của Meta, cảnh báo về nguy cơ của việc các nền tảng AI nguồn đóng kiểm soát tri thức và văn hóa của nhân loại. Ông kêu gọi các nền tảng AI phải là nguồn mở để tránh tình trạng một số ít công ty chi phối tư tưởng và thông tin, gây nguy hiểm cho sự đa dạng và dân chủ.

Citations:
[1] https://analyticsindiamag.com/ai-platforms-will-control-what-everybody-sees-metas-ai-chief-yann-lecun/

Không có file đính kèm.

Nguồn tham khảo

183

AI mở-nguồn mở 2024-04-19 02:44:09

Meta tung LLAMA 3 mạnh mẽ đối đầu ChatGPT

- Meta giới thiệu trợ lý AI mới, tích hợp vào ô tìm kiếm của Instagram, Facebook, WhatsApp, Messenger và xuất hiện trực tiếp trong feed Facebook.
- Trợ lý AI của Meta hiện có thể truy cập qua trang web riêng tại Meta.ai.
- Meta công bố Llama 3, phiên bản chính tiếp theo của mô hình nguồn mở nền tảng, vượt trội hơn các mô hình cùng loại trên các tiêu chuẩn quan trọng và tốt hơn trong các tác vụ như lập trình.
- Hai mô hình Llama 3 nhỏ hơn được phát hành hôm nay, cả trong trợ lý Meta AI và cho các nhà phát triển bên ngoài, trong khi phiên bản lớn hơn, đa phương thức sẽ ra mắt trong những tháng tới.
- CEO Mark Zuckerberg cho biết mục tiêu là biến Meta AI thành "trợ lý AI thông minh nhất mà mọi người có thể sử dụng tự do trên toàn thế giới".
- Trước khi phiên bản tiên tiến nhất của Llama 3 ra mắt, sẽ có các bản cập nhật lặp đi lặp lại cho các mô hình nhỏ hơn, như cửa sổ ngữ cảnh dài hơn và đa phương thức hơn.
- Meta muốn trợ lý của mình trở nên cá nhân hóa hơn và có thể tạo ra hình ảnh theo phong cách riêng của người dùng.
- Tốc độ thay đổi của các mô hình AI đang diễn ra rất nhanh, ngay cả khi Meta đang khẳng định lại vị trí dẫn đầu nguồn mở với Llama 3, không ai biết ngày mai sẽ mang lại điều gì.
- OpenAI được đồn đại đang chuẩn bị GPT-5, có thể vượt qua phần còn lại của ngành một lần nữa.

📌 Meta ra mắt trợ lý AI mới tích hợp vào nhiều nền tảng, sử dụng mô hình nguồn mở Llama 3 vượt trội. Mục tiêu là trở thành trợ lý AI thông minh nhất, tự do sử dụng trên toàn cầu. Tuy nhiên, tốc độ phát triển AI đang rất nhanh với tin đồn OpenAI chuẩn bị GPT-5, hứa hẹn cuộc đua gay cấn.

Citations:
[1] https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival

Không có file đính kèm.

Nguồn tham khảo

279

AI mở-nguồn mở AI nhỏ 2024-04-18 00:28:03

Snowflake ra mắt mô hình nhúng văn bản arctic-embed cho các trường hợp sử dụng truy xuất

- Snowflake giới thiệu và mở mã nguồn arctic-embed, một dòng gồm 5 mô hình nhúng văn bản với giấy phép Apache 2.0.

- Kích thước mô hình dao động từ 23 đến 334 triệu tham số, một mô hình có cửa sổ ngữ cảnh mở rộng, mang lại nhiều lựa chọn tối ưu về độ trễ, chi phí và hiệu suất truy xuất.

- Dựa trên bảng xếp hạng Massive Text Embedding Benchmark (MTEB) Retrieval, mô hình Arctic embed lớn nhất với 334 triệu tham số là mô hình duy nhất vượt qua hiệu suất truy xuất trung bình 55,9.

- Các mô hình có sẵn trên Hugging Face để sử dụng ngay và sẽ sớm có trong hàm Snowflake Cortex embed (đang trong giai đoạn xem trước riêng tư).

- Khi kết hợp với bộ dữ liệu độc quyền và LLM, các mô hình mang lại lợi thế mới cho các tổ chức trong việc tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) hoặc dịch vụ tìm kiếm ngữ nghĩa.

- Tính đến ngày 16/04/2024, snowflake-arctic-embed-l là mô hình nguồn mở mạnh mẽ nhất có thể sử dụng trong sản xuất dựa trên tỷ lệ hiệu suất trên kích thước.

📌 Snowflake ra mắt arctic-embed, bộ 5 mô hình nhúng văn bản tiên tiến với kích thước từ 23-334 triệu tham số và cửa sổ ngữ cảnh mở rộng. Mô hình lớn nhất đạt hiệu suất truy xuất vượt trội so với các đối thủ. Chúng được mở mã nguồn trên Hugging Face, tích hợp vào Snowflake Cortex, mang lại lợi thế khi kết hợp với dữ liệu độc quyền và LLM cho các ứng dụng RAG và tìm kiếm ngữ nghĩa.

Citations:

[1] Snowflake Launches Practical Text-Embedding Model for Retrieval use Cases https://www.snowflake.com/blog/introducing-snowflake-arctic-embed-snowflakes-state-of-the-art-text-embedding-family-of-models/

Không có file đính kèm.

Nguồn tham khảo

146

AI mở-nguồn mở AI doanh nghiệp 2024-04-17 23:45:50

Intel và các đối tác cam kết xây dựng công cụ AI tạo sinh nguồn mở cho doanh nghiệp

- Linux Foundation đã ra mắt dự án Open Platform for Enterprise AI (OPEA) nhằm thúc đẩy sự phát triển của các hệ thống AI tạo sinh mở, đa nhà cung cấp và có thể tổng hợp cho doanh nghiệp.

- Mục tiêu của OPEA là mở đường cho việc phát hành các hệ thống AI tạo sinh "vững chắc", "có khả năng mở rộng" và "khai thác sự đổi mới nguồn mở tốt nhất từ toàn bộ hệ sinh thái".

- Intel đã đóng góp các triển khai tham chiếu cho chatbot, công cụ tóm tắt tài liệu và trình tạo mã được tối ưu hóa cho phần cứng Xeon 6 và Gaudi 2 của họ trong kho lưu trữ OPEA.

- OPEA sẽ làm việc với cộng đồng nguồn mở để cung cấp các bài kiểm tra dựa trên tiêu chí đánh giá, cũng như cung cấp đánh giá và chấm điểm cho các triển khai AI tạo sinh theo yêu cầu.

- Các thành viên của OPEA như Cloudera, Domino và VMware đều đang đầu tư vào việc xây dựng công cụ cho AI tạo sinh trong doanh nghiệp.

- Cloudera gần đây đã ra mắt các quan hệ đối tác để tạo ra một "hệ sinh thái AI" trên đám mây, trong khi Domino cung cấp một bộ ứng dụng để xây dựng và kiểm toán AI tạo sinh cho doanh nghiệp.

📌 Dự án OPEA của Linux Foundation nhằm thúc đẩy sự phát triển của các hệ thống AI tạo sinh mở, đa nhà cung cấp và có thể tổng hợp cho doanh nghiệp. Với sự tham gia của Intel, Cloudera, VMware và Domino, OPEA hướng tới việc tạo ra các công cụ vững chắc, có khả năng mở rộng, khai thác sự đổi mới nguồn mở từ toàn bộ hệ sinh thái AI.

Citations:

[1] Intel and others commit to building open generative AI tools for the enterprise | TechCrunch https://techcrunch.com/2024/04/16/intel-and-others-commit-to-building-open-generative-ai-tools-for-the-enterprise/

Không có file đính kèm.

Nguồn tham khảo

140

AI mở-nguồn mở 2024-04-16 21:03:44

WizardLM-2 nổi lên như một đối thủ đáng gờm của các mô hình ngôn ngữ lớn đóng như GPT-4 và Claude 3 Opus

- WizardLM giới thiệu WizardLM-2, một mô hình ngôn ngữ SOTA mã nguồn mở với hiệu suất cải thiện trong các tác vụ trò chuyện phức tạp, đa ngôn ngữ, lập luận và tác tử.

- Mô hình có 3 phiên bản: WizardLM-2 8x22B xuất sắc trong các tác vụ phức tạp, WizardLM-2 70B cung cấp khả năng lập luận hàng đầu, và WizardLM-2 7B nhanh nhất trong khi vẫn đạt hiệu suất tương đương các mô hình lớn gấp 10 lần.

- Trọng số mô hình WizardLM-2 8x22B và 7B đã có sẵn trên Hugging Face nhưng sau đó bị gỡ xuống do phát hành sớm.

- Mô hình Mixture of Experts đa ngôn ngữ có tổng kích thước tham số 141 tỷ. Nó được cấp phép Apache 2.0, tương tự như Llama 2, giúp nó cạnh tranh mạnh mẽ.

- WizardLM tin rằng dữ liệu do AI tạo ra một cách cẩn thận và mô hình được giám sát từng bước bởi AI sẽ là con đường duy nhất dẫn đến AI mạnh mẽ hơn.

- Trong khi Llama 3 sắp ra mắt, các mô hình khác như Gemma của Google, Phi-2 và Orca của Microsoft cũng đang cạnh tranh gay gắt. Amazon vẫn im lặng về việc tạo ra các mô hình nhỏ hơn và dựa vào các mô hình mã nguồn mở.

📌 WizardLM-2 nổi lên như một đối thủ đáng gờm của các mô hình ngôn ngữ lớn đóng như GPT-4 và Claude 3 Opus với 3 phiên bản mạnh mẽ 8x22B, 70B và 7B. Mô hình 141B tham số này sử dụng cấp phép mã nguồn mở Apache 2.0 và được đào tạo trên dữ liệu tổng hợp do AI tạo ra, hứa hẹn mở ra con đường mới cho các AI mạnh mẽ hơn trong tương lai.

Citations:

[1] The Dumbledore of LLMs https://analyticsindiamag.com/the-dumbledore-of-llms/

Không có file đính kèm.

Nguồn tham khảo

136

AI mở-nguồn mở 2024-04-16 14:26:50

Kết thúc cuộc đua tìm mô hình ngôn ngữ lớn mã nguồn mở tốt nhất

- Tác giả đã 3 lần công bố mô hình ngôn ngữ lớn mã nguồn mở tốt nhất: Llama 2, Mixtral và DBRX. Mỗi phiên bản là bước tiến đáng kể về hiệu suất trên mỗi tham số (với ngân sách tính toán cố định).
- Mô hình 70 tỷ tham số nắm bắt nhiều chi tiết hơn hẳn mô hình 7 tỷ tham số được huấn luyện tương tự. Biểu đồ từ Maxime Labonne cho thấy sự dịch chuyển từ Llama 2 sang Mixtral chủ yếu là về nén hiệu suất.
- Các mô hình Yi và Qwen không được áp dụng rộng rãi do thiên kiến trong tường thuật về mô hình mã nguồn mở. Chúng đáng lẽ có thể được gọi là mô hình ngôn ngữ lớn tiên tiến nhất.
- Khi chuẩn hóa theo tính toán, hầu hết lợi ích từ Llama 2 đến từ việc mở rộng quy mô tính toán. MMLU chỉ là một phép đo, nhưng nó cho thấy tính toán đơn giản có thể mang lại hiệu suất như thế nào.
- Sự khác biệt cốt lõi giữa các mô hình ngôn ngữ lớn mở và đóng là lượng dữ liệu huấn luyện. DBRX là mô hình mở duy nhất được xác nhận huấn luyện trên lượng lớn token, khoảng 2-3 nghìn tỷ, thay đổi lớn so với các nhà cung cấp mô hình công nghiệp.

📌 Cuộc đua tìm ra mô hình ngôn ngữ lớn mã nguồn mở tốt nhất đã kết thúc với Llama 2, Mixtral và DBRX. Tuy nhiên, xu hướng hiện nay là tập trung vào các mô hình hiệu quả tính toán. Sự khác biệt chính giữa mô hình mở và đóng nằm ở lượng dữ liệu huấn luyện, với DBRX là mô hình mở duy nhất sử dụng tới hàng nghìn tỷ token.

Citations:
[1] https://www.interconnects.ai/p/compute-efficient-open-llms

Không có file đính kèm.

Nguồn tham khảo

155

AI mở-nguồn mở AI nhỏ 2024-04-16 06:43:06

Trợ lý lập trình AI mã nguồn mở aiXcoder 7B vượt trội hơn Code Llama

- aiXcoder 7B là một mô hình ngôn ngữ lớn lập trình mã nguồn mở mới với 7 tỷ tham số, thể hiện hiệu suất vượt trội so với các mô hình khác như Code Llama 34B và Star Coder 15B trong các tác vụ tạo mã.

- Nó hỗ trợ nhiều ngôn ngữ lập trình, bao gồm Python, JavaScript, C++ và các ngôn ngữ khác, đồng thời tích hợp với các IDE phổ biến như VS Code và JetBrains thông qua các plugin.

- aiXcoder 7B đã được huấn luyện trên 1.2 nghìn tỷ token duy nhất và xuất sắc trong việc hoàn thành mã, hiểu và tạo mã.

- Một trong những tính năng nổi bật của aiXcoder 7B là khả năng hỗ trợ đa ngôn ngữ toàn diện, đáp ứng nhu cầu của các nhà phát triển làm việc với Python, JavaScript và C++.

- Tính linh hoạt của nó cho phép tích hợp liền mạch vào các IDE phổ biến như Visual Studio Code và JetBrains thông qua các plugin thân thiện với người dùng.

- Hiệu suất ấn tượng và sự hỗ trợ của cộng đồng mã nguồn mở sôi động giúp củng cố vị trí của aiXcoder 7B như một công cụ không thể thiếu cho bất kỳ nhà phát triển nào muốn nâng cao trải nghiệm lập trình.

📌 aiXcoder 7B, một trợ lý lập trình AI mã nguồn mở mới với 7 tỷ tham số, đã thể hiện hiệu suất vượt trội so với các mô hình như Code Llama và Star Coder trong việc tạo mã. Nó hỗ trợ nhiều ngôn ngữ lập trình, tích hợp liền mạch với các IDE phổ biến, và xuất sắc trong hoàn thành, hiểu và tạo mã. Với hiệu suất ấn tượng và sự hỗ trợ của cộng đồng mã nguồn mở, aiXcoder 7B hứa hẹn sẽ là công cụ không thể thiếu cho các nhà phát triển.

Citations:

[1] aiXcoder 7B open source AI coding assistant outperforms Code Llama https://www.geeky-gadgets.com/ai-coding-assistant-aixcoder/

Không có file đính kèm.

Nguồn tham khảo

166

AI mở-nguồn mở 2024-04-12 17:42:18

Mistral - niềm hy vọng AI của châu Âu trong cuộc đua công nghệ toàn cầu

- Arthur Mensch, 31 tuổi, là CEO và đồng sáng lập Mistral, một công ty AI của Pháp được kỳ vọng sẽ cạnh tranh với OpenAI và Google.
- Chỉ sau một năm thành lập tại Paris, Mistral đã thu hút sự chú ý đáng kể và được chính phủ Pháp xác định là niềm hy vọng tốt nhất của châu Âu trong cuộc đua AI.
- Chính phủ Pháp đã vận động hành lang các nhà hoạch định chính sách EU để hỗ trợ sự phát triển của Mistral.
- Các nhà hoạch định chính sách và lãnh đạo doanh nghiệp châu Âu lo ngại rằng tăng trưởng và khả năng cạnh tranh của khu vực sẽ bị ảnh hưởng nếu không bắt kịp cuộc cách mạng AI.
- Họ cũng e ngại việc để các gã khổng lồ công nghệ như Microsoft và Google định hình các tiêu chuẩn AI toàn cầu, vốn có thể không phù hợp với các giá trị văn hóa và chính trị của các quốc gia khác.
- Câu hỏi lớn hơn là mô hình AI nào sẽ định hình thế giới và chúng nên được quản lý như thế nào.
- Arthur Mensch, từng là kỹ sư tại phòng thí nghiệm DeepMind của Google ở Paris, cho rằng sự vắng mặt của một nhà vô địch châu Âu đồng nghĩa với việc lộ trình sẽ do Mỹ định đoạt.

📌 Mistral, công ty khởi nghiệp AI của Pháp do Arthur Mensch đồng sáng lập, đang được kỳ vọng trở thành đối trọng của châu Âu trong cuộc đua AI toàn cầu. Chính phủ Pháp đã xác định Mistral là niềm hy vọng tốt nhất để thiết lập một đại diện và vận động hành lang EU hỗ trợ sự phát triển của công ty. Châu Âu đang lo ngại về hậu quả nếu tụt hậu trong cuộc cách mạng AI và để các gã khổng lồ công nghệ Mỹ định hình các tiêu chuẩn AI toàn cầu.

Citations:
[1] https://www.nytimes.com/2024/04/12/business/artificial-intelligence-mistral-france-europe.html

Không có file đính kèm.

Nguồn tham khảo

114

AI mở-nguồn mở 2024-04-12 17:37:12

Meta AI phát hành OpenEQA: bước tiến mới trong nghiên cứu trí thông minh thể hiện cho tác tử AI

- Meta AI vừa giới thiệu OpenEQA, một framework mã nguồn mở và tập dữ liệu để thúc đẩy nghiên cứu về trí thông minh thể hiện (embodied intelligence) trong các tác tử nhân tạo.
- OpenEQA cho phép các tác tử AI tương tác với môi trường 3D, trả lời các câu hỏi và thực hiện các tác vụ phức tạp dựa trên thông tin đa phương thức như thị giác, ngôn ngữ và hành động.
- Mục tiêu của OpenEQA là tạo ra các hệ thống AI có khả năng lập luận, học hỏi và thích ứng linh hoạt như con người trong thế giới thực.
- OpenEQA bao gồm hơn 1 triệu câu hỏi đa dạng trên 10.000 ngữ cảnh 3D khác nhau, giúp đánh giá khả năng của các tác tử AI trong việc trả lời câu hỏi và hoàn thành nhiệm vụ.
- Các tác tử AI trong OpenEQA có thể di chuyển, quan sát môi trường từ nhiều góc độ, tương tác với các vật thể và sử dụng ngôn ngữ tự nhiên để trả lời câu hỏi.
- OpenEQA tích hợp với nền tảng Habitat của Meta AI, cho phép mô phỏng các môi trường 3D thực tế và đào tạo các mô hình AI trên quy mô lớn.
- Bộ dữ liệu của OpenEQA được chia thành 3 loại câu hỏi: câu hỏi quan sát (chỉ cần quan sát môi trường), câu hỏi hành động (cần thực hiện hành động để trả lời) và câu hỏi dẫn đường (tìm đường đến đích).
- OpenEQA cũng cung cấp các công cụ để đánh giá và so sánh hiệu suất của các mô hình AI khác nhau trên tập dữ liệu.
- Theo Meta AI, OpenEQA sẽ thúc đẩy sự phát triển của các hệ thống AI đa phương thức, có khả năng học hỏi, lập luận và hoạt động hiệu quả trong thế giới thực, mở ra nhiều ứng dụng tiềm năng trong tương lai.

📌 OpenEQA của Meta AI là một bước tiến quan trọng trong nghiên cứu trí thông minh thể hiện cho các tác tử nhân tạo. Với hơn 1 triệu câu hỏi đa dạng trên 10.000 bối cảnh 3D, OpenEQA tạo điều kiện để phát triển các hệ thống AI đa phương thức, có khả năng tương tác, lập luận và thích ứng linh hoạt như con người, hứa hẹn nhiều ứng dụng thực tế trong tương lai.

Citations:
[1] https://venturebeat.com/ai/meta-ai-releases-openeqa-to-spur-embodied-intelligence-in-artificial-agents/

Không có file đính kèm.

Nguồn tham khảo

223

AI doanh nghiệp AI mở-nguồn mở 2024-04-12 17:20:53

Tương lai của AI doanh nghiệp: mã nguồn mở và triển khai tại chỗ

- Hiện nay, sự quan tâm về AI tập trung vào các dịch vụ AI tạo sinh quy mô lớn dựa trên đám mây như ChatGPT của OpenAI hay Microsoft Copilot.
- Tuy nhiên, các chuyên gia cho rằng trong tương lai gần, nhiều tổ chức có thể tự chạy dịch vụ AI tùy chỉnh trên phần cứng sở hữu hoặc thuê một cách dễ dàng và khả thi.
- Các yếu tố chi phí ban đầu đắt đỏ nhất của AI là dữ liệu huấn luyện và học sâu. Khi đã có cả hai, trọng tâm chuyển sang làm cho quá trình suy luận (đầu ra thực tế của AI) rẻ hơn và hiệu quả hơn.
- Nếu có dữ liệu riêng và xây dựng mô hình tùy chỉnh, nó sẽ rất hiệu quả về chi phí và mang lại nhiều giá trị hơn cho lĩnh vực vấn đề mà nó giải quyết.
- Các AI mã nguồn mở như Llama 2 hay Gemma có thể chạy tại chỗ đang tiệm cận về hiệu suất với các AI độc quyền phổ biến hơn và có thể sớm không thể phân biệt được từ góc nhìn của người dùng trung bình.
- Dell lạc quan rằng triển khai tại chỗ là tương lai của AI doanh nghiệp, mặc dù họ không thiên vị về kiến trúc bán dẫn cụ thể sẽ chạy nó.
- IBM đang xây dựng các mạch tích hợp chuyên dụng tập trung vào AI, và PC/laptop với chip AI chuyên dụng cuối cùng có thể tự xử lý một số tính toán AI.
- Khi chi phí đào tạo giảm, các công ty khởi nghiệp AI có thể cạnh tranh sòng phẳng hơn với các ông lớn công nghệ.

📌 Các yếu tố chi phí ban đầu đắt đỏ nhất của AI là dữ liệu huấn luyện và học sâu. Khi đã có cả hai, trọng tâm chuyển sang làm cho quá trình suy luận (đầu ra thực tế của AI) rẻ hơn và hiệu quả hơn. Trong tương lai gần, AI doanh nghiệp có thể chuyển dịch mạnh sang hướng mã nguồn mở và triển khai tại chỗ nhờ giảm chi phí đào tạo, sự tiệm cận về hiệu suất giữa AI mã nguồn mở và độc quyền, cũng như sự phát triển của phần cứng chuyên dụng cho AI. Điều này mở ra cơ hội cho các tổ chức tự triển khai dịch vụ AI tùy chỉnh hiệu quả.

Citations:
[1] https://www.itbrew.com/stories/2024/04/11/the-future-of-enterprise-ai-could-be-open-source-and-on-prem

Không có file đính kèm.

Nguồn tham khảo

141

AI mở-nguồn mở 2024-04-11 14:00:16

Mistral AI ra mắt Mixtral 8x22B - Mô hình AI mã nguồn mở mạnh mẽ với kiến trúc MoE thưa

- Mistral AI, một công ty khởi nghiệp AI mã nguồn mở có trụ sở tại Paris, đã ra mắt mô hình ngôn ngữ lớn mới nhất của mình, Mixtral 8x22B. Mô hình này được kỳ vọng sẽ vượt trội hơn mô hình trước đó của công ty, Mixtral 8x7B, vốn đã được đánh giá cao so với các đối thủ nổi tiếng như GPT-3.5 của OpenAI và Llama 2 của Meta Platforms Inc.

- Mixtral 8x22B có cửa sổ ngữ cảnh 65.000 token, cho phép xử lý và tham chiếu một lượng lớn văn bản cùng lúc. Mô hình này cũng có kích thước tham số lên tới 176 tỷ, tức số lượng biến nội bộ mà nó sử dụng để đưa ra quyết định và dự đoán.

- Mistral AI được thành lập bởi các nhà nghiên cứu AI từ Google và Meta. Công ty đã huy động được 415 triệu đô la vào tháng 12 và được định giá hơn 2 tỷ đô la. Mixtral 8x22B được phát hành thông qua liên kết torrent trên nền tảng truyền thông xã hội X và sau đó có sẵn trên các nền tảng Hugging Face và Together AI.

- Mixtral 8x22B sử dụng kiến trúc "mixture-of-experts" (MoE) thưa, cho phép nó thực hiện tính toán hiệu quả và mang lại hiệu suất cao trên nhiều tác vụ khác nhau. Mặc dù có kích thước rất lớn, mô hình này chỉ yêu cầu khoảng 44 tỷ tham số hoạt động cho mỗi lần truyền tiến, giúp nó nhanh hơn và tiết kiệm chi phí hơn so với các mô hình có kích thước tương tự.

Kết luận: Việc ra mắt Mixtral 8x22B có cửa sổ ngữ cảnh 65.000 token, kích thước tham số lên tới 176 tỷ là một cột mốc quan trọng cho AI tạo sinh mã nguồn mở. Tuy nhiên, Mistral AI cũng nhận một số chỉ trích vì không thể ngăn chặn việc sử dụng công nghệ của mình vào mục đích có hại.

https://siliconangle.com/2024/04/10/mistralai-debuts-mixtral-8x22b-one-powerful-open-source-ai-models-yet/

Không có file đính kèm.

Nguồn tham khảo

142

AI mở-nguồn mở 2024-04-10 16:25:12

Google ra mắt loạt công cụ mã nguồn mở hỗ trợ phát triển AI tạo sinh

- Google ra mắt nhiều công cụ mã nguồn mở hỗ trợ các dự án và cơ sở hạ tầng AI tạo sinh tại hội nghị Cloud Next.
- MaxDiffusion là bộ sưu tập các triển khai tham chiếu của các mô hình khuếch tán chạy trên các thiết bị XLA như TPU của Google và GPU mới của Nvidia.
- JetStream là một công cụ mới để chạy các mô hình AI tạo sinh văn bản, hiện hỗ trợ TPU và sẽ tương thích với GPU trong tương lai, mang lại hiệu suất cao gấp 3 lần trên mỗi đô la chi phí.
- MaxText bổ sung thêm các mô hình tạo sinh văn bản như Gemma 7B, GPT-3, Llama 2 và các mô hình từ Mistral, được tối ưu hóa hiệu suất trên TPU và GPU.
- Google hợp tác với Hugging Face tạo ra Optimum TPU, cung cấp công cụ để đưa các tác vụ AI nhất định lên phần cứng TPU, hiện mới chỉ hỗ trợ mô hình Gemma 7B và chạy mô hình chứ chưa hỗ trợ huấn luyện.
- Các cải tiến này tối đa hóa việc sử dụng GPU và TPU, dẫn đến hiệu quả năng lượng cao hơn và tối ưu hóa chi phí.
- Google hứa hẹn sẽ cải thiện các công cụ này trong tương lai.

📌 Google đã ra mắt hàng loạt công cụ mã nguồn mở như MaxDiffusion, JetStream, MaxText và Optimum TPU nhằm hỗ trợ phát triển các dự án AI tạo sinh. Các công cụ này giúp tối ưu hóa hiệu suất lên đến 3 lần và giảm chi phí triển khai trên phần cứng TPU và GPU, mặc dù vẫn còn một số hạn chế cần được cải thiện trong tương lai.

https://techcrunch.com/2024/04/09/google-open-sources-tools-to-support-ai-model-development/

Không có file đính kèm.

Nguồn tham khảo

118

AI models AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2024-04-09 22:42:20

bộ mô hình ngôn ngữ mở đa dạng cho các ngôn ngữ Đông Nam Á, từ 0.5B đến 7B tham số

- Sailor là một họ các mô hình ngôn ngữ mở với số lượng tham số từ 0.5B đến 7B, được phát triển đặc biệt cho sự đa dạng ngôn ngữ của khu vực Đông Nam Á (SEA).
- Các mô hình Sailor dựa trên mô hình ngôn ngữ linh hoạt Qwen1.5 và được tiền huấn luyện liên tục trên một kho ngữ liệu lớn gồm 200B đến 400B token.
- Phần lớn kho ngữ liệu bao gồm tiếng Anh, tiếng Trung, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai và tiếng Lào.
- Quy trình huấn luyện sử dụng nhiều chiến lược như BPE dropout để tăng cường khả năng tổng quát hóa của mô hình và giảm thiểu vấn đề quá khớp.
- Các quy trình khử trùng lặp và làm sạch dữ liệu nghiêm ngặt được áp dụng để đảm bảo chất lượng của tập huấn luyện, từ đó cải thiện hiệu suất tổng thể của các mô hình Sailor.
- Tỷ lệ kết hợp dữ liệu huấn luyện được tối ưu hóa bằng cách sử dụng các mô hình proxy nhỏ, cho phép điều chỉnh siêu tham số và nâng cao hiệu quả của quá trình huấn luyện.
- Các thử nghiệm trên nhiều tác vụ như kiểm tra, trả lời câu hỏi, đọc hiểu và suy luận thông thường đã chứng minh tính mạnh mẽ và hữu ích của các mô hình Sailor so với các tiêu chuẩn đa dạng.
- Nghiên cứu trình bày một phương pháp toàn diện để phát triển các mô hình ngôn ngữ lớn (LLM) hoạt động hiệu quả trong sự đa dạng ngôn ngữ của khu vực SEA.

📌 Sailor là một bộ mô hình ngôn ngữ mở đầy hứa hẹn với số lượng tham số từ 0.5B đến 7B, được phát triển đặc biệt cho các ngôn ngữ Đông Nam Á. Dựa trên Qwen1.5 và được tiền huấn luyện trên kho ngữ liệu 200B-400B token, Sailor đạt hiệu suất vượt trội trên nhiều tác vụ nhờ các kỹ thuật như BPE dropout, làm sạch dữ liệu và tối ưu hóa tỷ lệ kết hợp dữ liệu huấn luyện.

https://www.marktechpost.com/2024/04/09/meet-sailor-a-family-of-open-language-models-ranging-from-0-5b-to-7b-parameters-for-southeast-asian-sea-languages/

https://arxiv.org/abs/2404.03608

Không có file đính kèm.

Nguồn tham khảo

151

AI mở-nguồn mở 2024-04-09 16:18:31

Tinh chỉnh mô hình ngôn ngữ nguồn mở Mistral 7B-V0.2 với Hugging Face

- Mistral AI, một trong những công ty nghiên cứu AI hàng đầu thế giới, đã phát hành mô hình cơ sở cho Mistral 7B v0.2 - mô hình ngôn ngữ nguồn mở mới nhất.
- Mô hình Mistral 7B có 7.3 tỷ tham số, vượt trội hơn Llama 2 13B và Llama 1 34B trên hầu hết các bài kiểm tra đánh giá.
- Phiên bản V0.2 giới thiệu cửa sổ ngữ cảnh 32k cùng với các cải tiến khác, nâng cao khả năng xử lý và tạo văn bản.
- Bài hướng dẫn chi tiết cách truy cập và tinh chỉnh mô hình ngôn ngữ này trên nền tảng Hugging Face.
- Sử dụng tính năng AutoTrain của Hugging Face để tự động hóa quá trình đào tạo mô hình, giúp người dùng thông thường có thể phát triển các giải pháp AI tiên tiến.
- Hướng dẫn cụ thể các bước cần thiết để tinh chỉnh mô hình Mistral 7B-V0.2 trên tập dữ liệu tùy chỉnh, bao gồm tạo kho lưu trữ mô hình, chuẩn bị tập dữ liệu, cấu hình tham số và khởi chạy quá trình đào tạo.

📌 Mistral 7B-V0.2 là mô hình ngôn ngữ nguồn mở mạnh mẽ với 7,3 tỷ tham số, vượt trội hơn nhiều mô hình khác. Bài hướng dẫn chi tiết cách tinh chỉnh mô hình này trên nền tảng Hugging Face, giúp người dùng tạo ra các giải pháp AI tiên tiến dựa trên tập dữ liệu tùy chỉnh.

Citations:
[1] https://www.kdnuggets.com/mistral-7b-v02-fine-tuning-mistral-new-open-source-llm-with-hugging-face

Không có file đính kèm.

Nguồn tham khảo

133

AI mở-nguồn mở AI nhỏ 2024-04-08 23:39:09

aurora-m: mô hình ai nguồn mở đa ngôn ngữ 15 tỷ tham số được huấn luyện bằng 6 ngôn ngữ, có tiếng Việt

- AURORA-M là một mô hình ngôn ngữ lớn (LLM) nguồn mở đa ngôn ngữ mới với 15 tỷ tham số, được điều chỉnh cho 6 ngôn ngữ đa dạng: tiếng Anh, Phần Lan, Hindi, Nhật Bản, Việt Nam và mã lập trình.
- Bắt đầu từ mô hình StarCoderPlus, AURORA-M trải qua quá trình tiền huấn luyện liên tục trên tập dữ liệu lớn gồm 435 tỷ token, dẫn đến tổng số token huấn luyện ấn tượng là 2 nghìn tỷ.
- An toàn là nguyên tắc thiết kế cơ bản, biến AURORA-M trở thành LLM nguồn mở đa ngôn ngữ đầu tiên được tinh chỉnh trên tập hợp các hướng dẫn an toàn do con người đánh giá, giải quyết các mối quan tâm được nêu trong Lệnh hành pháp của Biden-Harris về Phát triển và Sử dụng AI An toàn, Bảo mật và Đáng tin cậy.
- Các nhà nghiên cứu đã tạo ra một tập dữ liệu lớn gồm các cặp hướng dẫn-phản hồi để tăng cường tính an toàn và khả năng phục hồi của AURORA-M, giải quyết các lĩnh vực như ngăn ngừa tổn hại, tấn công mạng, hoạt động bất hợp pháp, xâm phạm quyền riêng tư và phá vỡ các biện pháp kiểm soát an toàn.
- Kết quả đánh giá cho thấy AURORA-M thành công trong việc tránh quên thảm khốc trong các tác vụ tiếng Anh và mã hóa, đồng thời đạt được hiệu suất cạnh tranh trên các tiêu chuẩn đa ngôn ngữ.
- Đánh giá an toàn khẳng định cam kết của AURORA-M về an toàn và tuân thủ các thực tiễn phát triển AI có trách nhiệm.

📌 AURORA-M đánh dấu bước tiến đáng kể trong việc dân chủ hóa quyền truy cập vào các LLM đa ngôn ngữ và an toàn. Mô hình 15 tỷ tham số này được tinh chỉnh trên 6 ngôn ngữ (có tiếng Việt) và tập dữ liệu 2 nghìn tỷ token, đạt hiệu suất cao trên nhiều tác vụ, đồng thời tuân thủ các tiêu chuẩn pháp lý và thực tiễn phát triển AI có trách nhiệm.

https://www.marktechpost.com/2024/04/07/aurora-m-a-15b-parameter-multilingual-open-source-ai-model-trained-in-english-finnish-hindi-japanese-vietnamese-and-code/

Không có file đính kèm.

Nguồn tham khảo

180

AI models AI mở-nguồn mở 2024-04-08 07:40:00

AnythingLLM: Ứng dụng AI nguồn mở tích hợp chatbot tài liệu và mô hình ngôn ngữ lớn

- AnythingLLM là ứng dụng nguồn mở toàn diện giúp doanh nghiệp tương tác với tài liệu thông qua công nghệ chatbot.
- Ứng dụng cho phép triển khai các phiên bản ChatGPT riêng tư, tích hợp với các mô hình ngôn ngữ lớn thương mại hoặc nguồn mở phổ biến.
- Người dùng có thể tạo và quản lý các không gian làm việc riêng biệt, mỗi không gian chứa một tập hợp tài liệu.
- AnythingLLM hỗ trợ đa người dùng với quyền truy cập chi tiết, đảm bảo an toàn thông tin.
- Tích hợp widget chat tùy chỉnh trên website, tăng tương tác người dùng.
- Hỗ trợ nhiều định dạng tài liệu như PDF, DOCX.
- Giao diện thân thiện giúp quản lý tài liệu hiệu quả, tích hợp với cơ sở dữ liệu vector.
- Hai chế độ hội thoại và truy vấn phù hợp với nhu cầu sử dụng.
- Trích dẫn trong hội thoại tăng độ tin cậy và minh bạch.
- Sẵn sàng triển khai trên đám mây, đảm bảo khả năng mở rộng.
- Hỗ trợ nhiều mô hình ngôn ngữ lớn, cho phép người dùng tùy chỉnh trải nghiệm hội thoại.
- Tối ưu hóa chi phí xử lý tài liệu.
- API thân thiện với nhà phát triển, mở ra nhiều khả năng tùy chỉnh.

📌 AnythingLLM là giải pháp chatbot tài liệu đa năng, hiệu quả và thân thiện với nhà phát triển. Với nhiều tính năng, hỗ trợ đa dạng mô hình ngôn ngữ lớn và khả năng tích hợp liền mạch, AnythingLLM giúp doanh nghiệp khai thác tối đa tiềm năng của tài liệu thông qua hội thoại dựa trên AI.

https://www.marktechpost.com/2024/04/07/meet-anythingllm-an-open-source-all-in-one-ai-desktop-app-for-local-llms-rag/

Không có file đính kèm.

Nguồn tham khảo

171

AI mở-nguồn mở 2024-04-01 23:21:20

OpenDevin: Một giải pháp thay thế mã nguồn mở cho Devin - một kỹ sư phần mềm AI tự trị

- OpenDevin là một dự án mã nguồn mở đại diện cho bước tiến đáng kể trong việc tích hợp trí tuệ nhân tạo vào kỹ thuật phần mềm.
- Nó cho phép người dùng tương tác với một AI có khả năng tạo các tập lệnh bash, chạy thử nghiệm và thực hiện các lệnh khác cần thiết cho quy trình phát triển.
- OpenDevin được xây dựng trên nền tảng Docker, Python và NodeJS, hứa hẹn một tương lai mà AI đóng vai trò tích cực hơn trong các nhiệm vụ lập trình.
- Thông qua sức mạnh của cộng đồng nguồn mở, OpenDevin nhằm đẩy ranh giới của những gì có thể với AI trong phát triển phần mềm.
- Nó tìm cách giải quyết các thách thức thực tế của việc tích hợp AI vào quá trình lập trình bằng cách hợp nhất các nhà phát triển, nhà nghiên cứu và những người đam mê AI.
- OpenDevin tượng trưng cho một bước đi táo bạo hướng tới tương lai nơi các nhà phát triển và AI hợp tác liền mạch.
- Với sự hỗ trợ và đổi mới của cộng đồng nguồn mở, OpenDevin đang sẵn sàng thay đổi bối cảnh kỹ thuật số, biến hành trình phát triển được cung cấp bởi AI trở thành hiện thực.

📌 OpenDevin là một dự án mã nguồn mở tiên phong tích hợp AI vào quy trình phát triển phần mềm, cho phép các nhà phát triển tập trung vào sáng tạo hơn là công việc tẻ nhạt. Được xây dựng trên Docker, Python, NodeJS và sức mạnh của cộng đồng, OpenDevin hứa hẹn một tương lai nơi AI và con người cộng tác liền mạch để cách mạng hóa ngành phần mềm.

https://www.marktechpost.com/2024/04/01/meet-opendevin-an-open-source-alternative-to-devin-an-autonomous-ai-software-engineer/

Không có file đính kèm.

Nguồn tham khảo

132

AI mở-nguồn mở 2024-04-01 04:20:18

OpenFoundry: Startup nghiên cứu AI xây dựng cơ sở hạ tầng cho AI nguồn mở

- OpenFoundry.ai là một nền tảng trí tuệ nhân tạo nguồn mở giúp các nhà phát triển tìm ra các mô hình tối ưu, nhanh chóng tạo mẫu thử, tinh chỉnh và triển khai chúng lên đám mây.
- OpenFoundry giải quyết các thách thức mà các nhà phát triển gặp phải khi sử dụng AI nguồn mở thông qua chiến lược hai mũi nhọn: nền tảng dành cho nhà phát triển và cộng đồng năng động.
- Nền tảng của OpenFoundry giúp việc tạo và triển khai các mô hình AI nguồn mở trở nên dễ dàng hơn. Sản phẩm đầu tiên cho phép các nhà phát triển nhanh chóng cài đặt các mô hình trên cơ sở hạ tầng đám mây của họ bằng công cụ dòng lệnh.
- Theo các nhà sáng lập Tyler Lehman và Arthur Chi, AI nguồn mở có nhiều lợi ích so với các lựa chọn nguồn đóng như: phát triển nhanh hơn và rẻ hơn, giảm rủi ro phụ thuộc vào nền tảng, và khả năng tự lưu trữ mô hình trên cơ sở hạ tầng riêng.
- OpenFoundry được hậu thuẫn bởi Y Combinator.

📌OpenFoundry.ai là một nền tảng trí tuệ nhân tạo nguồn mở giúp các nhà phát triển tìm ra các mô hình tối ưu, nhanh chóng tạo mẫu thử, tinh chỉnh và triển khai chúng lên đám mây. Sản phẩm đầu tiên cho phép các nhà phát triển nhanh chóng cài đặt các mô hình trên cơ sở hạ tầng đám mây của họ bằng công cụ dòng lệnh.

https://www.marktechpost.com/2024/03/29/meet-openfoundry-an-ai-research-startup-building-a-developer-infrastructure-for-open-source-ai/

Không có file đính kèm.

Nguồn tham khảo

117

AI mở-nguồn mở 2024-04-01 03:16:50

Mistral 7B v0.2, một bước tiến đáng kể trong các mô hình ngôn ngữ nguồn mở

- Mistral AI giới thiệu Mistral 7B v0.2, một bước tiến quan trọng trong các mô hình ngôn ngữ nguồn mở, với nhiều cải tiến kỹ thuật như mở rộng cửa sổ ngữ cảnh từ 8k lên 32k token, tinh chỉnh tham số Rope Theta và loại bỏ cơ chế sliding window attention.
- Những cải tiến này giúp Mistral 7B v0.2 xử lý và hiểu các chuỗi văn bản dài hơn với tính liên kết và liên quan cao hơn, rất quan trọng cho các ứng dụng từ tóm tắt tài liệu đến trả lời câu hỏi dạng dài.
- Mistral 7B v0.2 vượt trội hơn Llama-2 13B trong tất cả các tác vụ và cạnh tranh với các mô hình lớn hơn như Llama-1 34B mặc dù có ít tham số hơn. Khả năng của nó trong các tác vụ lập trình tiếp cận với các mô hình chuyên biệt như CodeLlama 7B.
- Phiên bản instruction-tuned, Mistral 7B Instruct v0.2, vượt trội hơn các mô hình instruction khác trên bộ dữ liệu MT-Bench, cho thấy tiềm năng trong phát triển các ứng dụng AI hội thoại.
- Kiến trúc của Mistral 7B v0.2, với 7.3 tỷ tham số và các đổi mới như Grouped-Query Attention (GQA) và Byte-fallback BPE tokenizer, là nền tảng cho hiệu suất vượt trội của nó, cải thiện tốc độ, chất lượng và khả năng tiếp cận với đối tượng rộng hơn.
- Bằng cách áp dụng cách tiếp cận nguồn mở theo giấy phép Apache 2.0, Mistral AI đảm bảo Mistral 7B v0.2 không chỉ là công cụ cho các nhà nghiên cứu và nhà phát triển mà còn là tài nguyên thúc đẩy đổi mới trên nhiều lĩnh vực.
- Việc cung cấp các tài nguyên toàn diện và các tùy chọn triển khai linh hoạt tạo điều kiện cho việc áp dụng và tích hợp Mistral 7B v0.2 vào các dự án và ứng dụng đa dạng.

📌 Mistral 7B v0.2 đánh dấu bước ngoặt trong lĩnh vực AI với hiệu suất vượt trội, kiến trúc hiệu quả và khả năng thích ứng trong nhiều tác vụ. Mô hình 7,3 tỷ tham số này minh chứng sức mạnh của các sáng kiến nguồn mở trong việc đẩy ranh giới công nghệ và làm cho các công cụ AI tiên tiến trở nên dễ tiếp cận hơn, thúc đẩy đổi mới và hợp tác trong cộng đồng AI.

https://www.marktechpost.com/2024/03/31/mistral-ai-releases-mistral-7b-v0-2-a-groundbreaking-open-source-language-model/

Không có file đính kèm.

Nguồn tham khảo

103

AI mở-nguồn mở 2024-04-01 03:01:04

Chúng ta nên định nghĩa "open" AI như thế nào?

- Thuật ngữ "open" trong bối cảnh AI chưa có định nghĩa thống nhất, được áp dụng cho nhiều sản phẩm khác nhau mà ít liên quan đến ý nghĩa ổn định.
- Thomas Padilla cho rằng AI mở nên có 5 đặc điểm: có thể tái sử dụng, minh bạch, có trách nhiệm giải trình, được áp dụng bền vững, có tác động tích cực.
- Llama 2 của Meta tuyên bố là mã nguồn mở nhưng có các điều khoản hạn chế như cấm sử dụng để cải thiện các mô hình ngôn ngữ lớn khác. Điều này không đúng tinh thần mã nguồn mở.
- Các mô hình như OLMo phù hợp hơn với tinh thần mã nguồn mở khi công bố mã, trọng số dưới giấy phép Apache 2.0.
- OpenAI được coi là mở nhưng thiếu tính minh bạch khi không ghi công tác giả, nguồn dữ liệu huấn luyện.
- Hugging Face đề xuất "model cards" để cung cấp thông tin về thông số mô hình, bộ dữ liệu, mục đích sử dụng, hạn chế tiềm ẩn.
- AI mở cần có trách nhiệm giải trình, được phát triển và sử dụng theo nhu cầu cụ thể của cộng đồng.
- Tính bền vững của AI mở thể hiện qua nhận thức về sự phụ thuộc lẫn nhau, các mối đe dọa và cơ hội.

📌Thuật ngữ "open" và "open source" đang được sử dụng một cách gây nhầm lẫn trong bối cảnh AI, thường mang tính nguyện vọng hoặc tiếp thị hơn là mô tả kỹ thuật. Để đánh giá một AI có thực sự mở hay không, cần xem xét 5 khía cạnh như khả năng tái sử dụng, tính minh bạch, trách nhiệm giải trình, có tác động tích cực và tính bền vững.

Citations:
[1] https://thenewstack.io/how-should-we-define-open-ai/

Không có file đính kèm.

Nguồn tham khảo

116

AI mở-nguồn mở 2024-03-29 17:09:14

SambaNova tung ra siêu mô hình AI Samba-CoE v0.2 đánh bại DBRX chỉ trong 1 ngày

- SambaNova Systems công bố mô hình ngôn ngữ lớn Samba-CoE v0.2 mới đạt tốc độ ấn tượng 330 token/giây, vượt qua nhiều mô hình đáng chú ý của đối thủ như DBRX mới ra mắt của Databricks, Mixtral-8x7B của MistralAI, Grok-1 của xAI.

- Samba-CoE v0.2 đạt tốc độ cao mà không ảnh hưởng đến độ chính xác, chỉ cần 8 socket thay vì 576 socket và hoạt động ở tốc độ bit thấp hơn so với các mô hình khác.

- Trong các bài kiểm tra, Samba-CoE v0.2 đưa ra câu trả lời 425 từ về thiên hà Milky Way chỉ trong 330.42 giây. Câu hỏi về điện toán lượng tử cũng nhận được câu trả lời nhanh chóng tương tự với 332.56 token chỉ trong 1 giây.

- SambaNova nhấn mạnh việc sử dụng ít socket hơn đồng thời duy trì tốc độ bit cao, cho thấy sự tiến bộ đáng kể về hiệu quả tính toán và hiệu suất mô hình.

- Công ty cũng úp mở về việc sắp ra mắt Samba-CoE v0.3 hợp tác với LeptonAI, cho thấy sự tiến bộ và đổi mới liên tục.

- Nền tảng của những tiến bộ này dựa trên các mô hình mã nguồn mở từ Samba-1 và Sambaverse, sử dụng cách tiếp cận độc đáo để kết hợp và hợp nhất mô hình, không chỉ là cơ sở cho phiên bản hiện tại mà còn gợi ý cách tiếp cận có thể mở rộng và sáng tạo cho sự phát triển trong tương lai.

- So sánh với các mô hình khác như Gemma-7B của GoogleAI, Mixtral-8x7B của MistralAI, llama2-70B của Meta, Qwen-72B của Alibaba Group, Falcon-180B của TIIuae và BLOOM-176B của BigScience cho thấy lợi thế cạnh tranh của Samba-CoE v0.2.

📌 SambaNova Systems đã đạt được bước tiến quan trọng với mô hình ngôn ngữ lớn Samba-CoE v0.2, vượt trội hơn nhiều đối thủ về tốc độ xử lý (330 token/giây) và hiệu quả tính toán (chỉ cần 8 socket). Điều này cho thấy tiềm năng to lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, mở ra hướng đi mới cho tương lai của lĩnh vực trí tuệ nhân tạo.

https://venturebeat.com/ai/sambanova-announces-new-ai-samba-coe-v0-2-that-already-beats-databricks-dbrx/

Không có file đính kèm.

Nguồn tham khảo

142

AI mở-nguồn mở 2024-03-28 23:18:33

Cổng AI nguồn mở mới giúp kiểm soát tốt hơn việc sử dụng AI cho công việc

- Các tổ chức quan ngại về rò rỉ dữ liệu, hiện tượng AI ảo giác và chi phí sử dụng API AI đám mây khi triển khai mô hình ngôn ngữ lớn (LLM) cho ứng dụng AI tạo sinh.

- Kong đã tạo ra một cổng AI, tích hợp vào nền tảng quản lý API của họ, để giúp tổ chức giải quyết các thách thức này.

- Cổng AI hỗ trợ kết nối với các nhà cung cấp LLM đám mây như OpenAI, Azure AI, Anthropic, Cohere, Mistral và Meta's Llama.

- Nó cung cấp quản trị tập trung cho thông tin đăng nhập AI, phân tích AI, bảo mật AI và tường lửa để kiểm soát các loại nhắc nhở được phép.

- Cổng AI cũng quản lý lưu lượng giữa LLM tự hostđể cải thiện hiệu suất và giảm chi phí sử dụng AI.

- Xu hướng là các tổ chức lớn kết hợp sử dụng LLM tự host rẻ hơn với LLM đám mây làm phương án dự phòng.

📌 Các tổ chức quan ngại về rò rỉ dữ liệu, hiện tượng AI ảo giác và chi phí sử dụng API AI đám mây khi triển khai mô hình ngôn ngữ lớn (LLM) cho ứng dụng AI tạo sinh. Cổng AI mới của Kong hỗ trợ kết nối với 6 nhà cung cấp LLM đám mây, quản lý tập trung thông tin đăng nhập, phân tích, bảo mật và kiểm soát nhắc nhở, cũng như điều phối giữa LLM tự host và đám mây để tối ưu hiệu suất và chi phí.

https://thenewstack.io/using-ai-for-work-new-open-source-gateway-promises-better-control/

Không có file đính kèm.

Nguồn tham khảo

160

AI mở-nguồn mở 2024-03-27 22:44:00

Databricks phát hành mô hình AI mã nguồn mở mạnh nhất thế giới DBRX

- Startup Databricks đã phát hành DBRX, mô hình ngôn ngữ lớn mã nguồn mở mạnh nhất hiện nay, vượt qua Llama 2 của Meta.
- Databricks đã đầu tư khoảng 10 triệu USD và mất nhiều tháng để huấn luyện DBRX.
- DBRX vượt trội hơn các mô hình mã nguồn mở khác như Llama 2, Mixtral và Grok AI của Elon Musk trên nhiều bài kiểm tra.
- Trên một số điểm số, DBRX gần bằng GPT-4 của OpenAI, mô hình đóng được coi là đỉnh cao của trí tuệ máy.
- Databricks muốn minh bạch về quá trình tạo ra DBRX, không như Meta với Llama 2.
- Databricks hy vọng giúp các công ty trong tài chính, y tế sử dụng công nghệ AI trên dữ liệu riêng.
- DBRX sử dụng kiến trúc "mixture of experts", chỉ kích hoạt một phần mô hình để xử lý truy vấn, giúp huấn luyện và vận hành hiệu quả hơn.
- Trong 2 tuần cuối, Databricks đã tập trung cải thiện hiệu suất của DBRX trên một tập hợp khả năng cụ thể thay vì tiếp tục mở rộng quy mô.
- DBRX cũng đạt kết quả tốt trong việc tạo mã máy tính mặc dù không tập trung vào khía cạnh này.
- Databricks cho rằng việc công khai mã nguồn giúp thúc đẩy đổi mới và nghiên cứu khoa học.

📌 DBRX của Databricks đã trở thành mô hình AI mã nguồn mở mạnh nhất hiện nay với 136 tỷ tham số, vượt qua Llama 2, Mixtral và Grok. Mô hình này đạt điểm số gần bằng GPT-4 trên nhiều bài kiểm tra và hứa hẹn mang AI đến với nhiều doanh nghiệp hơn. Databricks cũng muốn minh bạch hơn về quá trình xây dựng DBRX để thúc đẩy nghiên cứu và đổi mới trong lĩnh vực AI.

Citations:
[1] https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/

Không có file đính kèm.

Nguồn tham khảo

137

AI models AI mở-nguồn mở 2024-03-27 22:39:46

Databricks tạo lịch sử với mô hình mã nguồn mở DBRX 132B tiệm cận với GPT-4 nhưng có chi phí thấp hơn 20 lần

- Databricks ra mắt mô hình mã nguồn mở DBRX 132B, vượt trội hơn các mô hình SOTA như Llama 2 70B, Mixtral-8x7B và Grok-1 trên nhiều bài kiểm tra như MMLU, Human Eval và GSM 8K.
- DBRX 132B tiệm cận với GPT-4 của OpenAI nhưng có chi phí thấp hơn 20 lần, chỉ 6,2 USD cho 1 triệu token đầu ra so với 120 USD của GPT-4.
- Kiến trúc MoE của DBRX 132B cho phép tốc độ nhanh, 100 token/giây, gấp 3 lần Llama, giảm rào cản chi phí, quyền riêng tư và độ phức tạp cho doanh nghiệp.
- Naveen Rao, Phó Chủ tịch Databricks, tin rằng mô hình mã nguồn mở sẽ vượt qua các mô hình đóng như GPT-4 trong 5 năm tới.
- Rao đánh giá thấp mô hình Grok-1 314B của XAI, cho rằng chất lượng không tương xứng với quy mô. Ông tự tin DBRX vượt trội hơn về chất lượng, chi phí và tốc độ.
- Databricks gặp khó khăn trong việc có được tài nguyên tính toán cần thiết và đảm bảo sự ổn định khi phát triển DBRX, chậm hơn 1-2 tháng so với kế hoạch.
- Thách thức kỹ thuật lớn nhất là mở rộng quy mô lên hơn 3072 GPU H100 và tối ưu hóa hiệu quả của kiến trúc MoE.
- Databricks cam kết với mã nguồn mở, tích hợp công nghệ MosaicML, cho phép các công ty tạo sự khác biệt trong AI và tận dụng dữ liệu độc quyền.

📌 Mô hình DBRX 132B của Databricks đánh dấu bước ngoặt cho AI mã nguồn mở, với chất lượng tiệm cận GPT-4 nhưng chi phí chỉ bằng 1/20, mở ra cơ hội cho doanh nghiệp áp dụng AI hiệu quả với tốc độ 100 token/giây, gấp 3 lần các mô hình khác.

https://analyticsindiamag.com/databricks-creates-history-with-gpt-4-level-open-source-model/

Không có file đính kèm.

Nguồn tham khảo

150

AI mở-nguồn mở 2024-03-26 23:16:44

Fireworks.ai mang AI tạo sinh đến với mọi nhà phát triển thông qua API nguồn mở

- Fireworks.ai là một startup cung cấp API AI tạo sinh nguồn mở lớn nhất với hơn 12.000 người dùng.
- Công ty không đào tạo các mô hình nền tảng từ đầu mà giúp tinh chỉnh các mô hình khác theo nhu cầu cụ thể của doanh nghiệp.
- API cho phép các nhà phát triển tích hợp nhanh chóng khả năng AI tạo sinh như đặt câu hỏi vào ứng dụng của họ.
- Fireworks.ai cho phép các công ty thử nghiệm với nhiều mô hình khác nhau, điều quan trọng trong thị trường đang thay đổi nhanh chóng.
- Công ty giữ chi phí thấp bằng cách giới hạn kích thước mô hình từ 7 tỷ đến 13 tỷ token, so với hơn 1 nghìn tỷ token trong ChatGPT4.
- Điều này cho phép các nhà phát triển tập trung vào các tập dữ liệu nhỏ hơn, tập trung hơn được thiết kế để hoạt động với các trường hợp sử dụng kinh doanh hạn chế hơn.
- CEO Lin Qiao trước đây đã làm việc tại Meta, lãnh đạo nhóm phát triển nền tảng AI với mục tiêu xây dựng một công cụ phát triển nhanh, có thể mở rộng quy mô để cung cấp năng lượng cho AI trên tất cả các sản phẩm và dịch vụ của Meta.
- Fireworks.ai đã huy động được 25 triệu USD vào năm 2022 do Benchmark dẫn đầu với sự tham gia của Sequoia Capital và các nhà đầu tư thiên thần bao gồm Databricks và Snowflake.

📌 Fireworks.ai cung cấp API AI tạo sinh nguồn mở lớn nhất với hơn 12.000 người dùng, cho phép các nhà phát triển dễ dàng tích hợp khả năng AI vào ứng dụng. Công ty tập trung vào việc tinh chỉnh các mô hình theo nhu cầu cụ thể, giữ chi phí thấp bằng cách giới hạn kích thước mô hình. Fireworks.ai đã huy động được 25 triệu USD từ các nhà đầu tư hàng đầu trong ngành.

https://techcrunch.com/2024/03/26/fireworks-ai-open-source-api-puts-generative-ai-in-reach-of-any-developer/

Không có file đính kèm.

Nguồn tham khảo

111

AI mở-nguồn mở 2024-03-25 23:03:51

Ngành công nghệ lúng túng với khái niệm AI mã nguồn mở

- Nhiều công ty công nghệ lớn như Meta, Google, Amazon đang tự xưng là những nhà tiên phong về AI mã nguồn mở. Tuy nhiên, chưa có sự đồng thuận về định nghĩa "AI mã nguồn mở" thực sự là gì.

- Open Source Initiative (OSI) đang tập hợp các nhà nghiên cứu, luật sư, nhà hoạch định chính sách và đại diện từ các công ty công nghệ lớn để đưa ra định nghĩa về AI mã nguồn mở.

- Các tiêu chí để một mô hình AI được coi là mã nguồn mở còn mơ hồ. Nhiều mô hình được chia sẻ công khai nhưng kèm theo các giấy phép hạn chế việc sử dụng.

- Vấn đề gây tranh cãi lớn nhất là liệu dữ liệu huấn luyện có cần được chia sẻ hay không. Các công ty công nghệ lớn chỉ công bố mô hình đã huấn luyện mà không chia sẻ dữ liệu gốc.

- Việc thiếu rõ ràng về định nghĩa AI mã nguồn mở có thể giúp các công ty lớn tận dụng thuật ngữ này theo cách có lợi cho họ, củng cố vị thế thống trị của họ trong lĩnh vực AI.

- Cộng đồng cần thống nhất một định nghĩa chung, nếu không các công ty lớn sẽ tự đưa ra định nghĩa theo nhu cầu riêng của họ.

📌 Các tiêu chí để một mô hình AI được coi là mã nguồn mở còn mơ hồ. Nhiều mô hình được chia sẻ công khai nhưng kèm theo các giấy phép hạn chế việc sử dụng.Vấn đề gây tranh cãi lớn nhất là liệu dữ liệu huấn luyện có cần được chia sẻ hay không. Các công ty công nghệ lớn chỉ công bố mô hình đã huấn luyện mà không chia sẻ dữ liệu gốc. Điều này giúp các công ty lớn tận dụng thuật ngữ AI nguồn mở theo cách có lợi cho họ, củng cố vị thế thống trị của họ trong lĩnh vực AI.

Citations:
[1]https://www.technologyreview.com/2024/03/25/1090111/tech-industry-open-source-ai-definition-problem/

#MIT

Không có file đính kèm.

Nguồn tham khảo

114

AI mở-nguồn mở AI coding assistant 2024-03-22 23:34:28

Devika - đối thủ mã nguồn mở của Devin trong vai trò kỹ sư phần mềm AI

- Devika là phần mềm kỹ sư AI mã nguồn mở, có khả năng hiểu hướng dẫn của con người, chia nhỏ thành các nhiệm vụ, nghiên cứu và tự động viết mã để đạt mục tiêu
- Devika sử dụng các mô hình ngôn ngữ lớn như Claude 3, GPT-4, GPT-3.5 và Local LLMs, thuật toán lập kế hoạch và lập luận AI tiên tiến, trích xuất từ khóa ngữ cảnh, duyệt web và viết mã trong nhiều ngôn ngữ lập trình
- Một trong những điểm mạnh của Devika là khả năng đóng vai trò lập trình viên AI, giảm sự can thiệp của con người trong các nhiệm vụ mã hóa phức tạp
- Devika có thể tạo tính năng mới, gỡ lỗi mã hoặc phát triển toàn bộ dự án từ đầu, nhằm hợp lý hóa quy trình phát triển phần mềm và nâng cao hiệu quả
- Công cụ lập kế hoạch và lập luận AI của Devika cho phép nó chia nhỏ mục tiêu thành các bước khả thi, tinh chỉnh kế hoạch dựa trên ngữ cảnh và tự động thực hiện nhiệm vụ
- Người dùng có thể nhanh chóng bắt đầu với Devika bằng cách làm theo các bước cài đặt đơn giản, truy cập giao diện web, tạo dự án mới, chọn ngôn ngữ lập trình và cấu hình mô hình, đưa ra mục tiêu cấp cao cho Devika

📌 Devika hứa hẹn cách mạng hóa cách chúng ta xây dựng phần mềm với vai trò lập trình viên AI có thể đảm nhận các nhiệm vụ mã hóa phức tạp chỉ với sự hướng dẫn tối thiểu của con người. Với khả năng tạo tính năng mới, sửa lỗi hay phát triển toàn bộ dự án từ đầu, Devika đang nỗ lực trở thành một đối thủ mã nguồn mở đáng gờm của Devin.

https://analyticsindiamag.com/meet-devika-an-open-source-alternative-to-devin/

Không có file đính kèm.

Nguồn tham khảo

221

AI mở-nguồn mở 2024-03-21 23:04:09

các công ty mã nguồn mở chia sẻ AI miễn phí, liệu có thể phá vỡ sự thống trị của OpenAI?

- OpenAI chiếm gần 80% thị trường AI tạo sinh toàn cầu năm 2023 (theo Valuates Reports).
- Các công ty lớn như xAI của Elon Musk, Meta, Google đều phát hành mô hình AI mã nguồn mở để cạnh tranh.
- Các startup AI mã nguồn mở nổi bật gồm Mistral AI, Hugging Face, Runway ML, Together AI, Writer, Cerebras và Databricks.
- Mô hình AI mã nguồn mở hấp dẫn doanh nghiệp vì không mất phí, không phải chia sẻ dữ liệu và có thể tùy chỉnh.
- Các công ty AI mã nguồn mở kiếm tiền bằng cách bán dịch vụ, ứng dụng và hỗ trợ doanh nghiệp trên nền tảng mô hình miễn phí.
- Mistral AI hợp tác với Microsoft, cung cấp cả mô hình miễn phí và mô hình độc quyền trả phí.
- Stability AI bắt đầu tính phí đăng ký sử dụng thương mại cho một số mô hình tiên tiến từ tháng 12/2023.
- Wayfair sử dụng phiên bản miễn phí của Stable Diffusion cho công cụ thiết kế nội thất AI.
- Vốn đầu tư toàn cầu cho các startup AI mã nguồn mở tăng từ 900 triệu USD năm 2022 lên 2,9 tỷ USD năm 2023 (theo PitchBook).
- Together AI huy động được 106 triệu USD, định giá 1,25 tỷ USD, chủ yếu bán công cụ giúp doanh nghiệp sử dụng mô hình mã nguồn mở rẻ và nhanh hơn.
- Hugging Face huy động gần 400 triệu USD, bán sức mạnh tính toán và hỗ trợ doanh nghiệp cho các mô hình mã nguồn mở khác.
- Thương mại hóa AI mã nguồn mở là "lãnh thổ chưa được khám phá", đối mặt nhiều thách thức như chi phí đào tạo mô hình, cấp phép công nghệ.
- Chưa có định nghĩa chuẩn hoặc bộ giấy phép cho AI mã nguồn mở, một số công ty chỉ phát hành một phần mô hình, hạn chế tính hữu dụng.

📌 OpenAI chiếm gần 80% thị trường AI tạo sinh toàn cầu năm 2023. Vốn đầu tư toàn cầu cho các startup AI mã nguồn mở tăng từ 900 triệu USD năm 2022 lên 2,9 tỷ USD năm 2023. Hiện nay chưa có định nghĩa chuẩn hoặc bộ giấy phép cho AI mã nguồn mở, một số công ty chỉ phát hành một phần mô hình, hạn chế tính hữu dụng. Mặc dù đang thu hút nhiều sự chú ý và đầu tư, các công ty AI mã nguồn mở vẫn phải đối mặt với nhiều thách thức trong việc thương mại hóa công nghệ, cạnh tranh với các đại gia công nghệ.

Citations:
[1]https://www.wsj.com/articles/open-source-companies-are-sharing-their-ai-free-can-they-crack-openais-dominance-26149e9c

Không có file đính kèm.

Nguồn tham khảo

181

AI mở-nguồn mở 2024-03-18 23:34:13

Grok AI của Elon Musk chính thức mở mã nguồn, cạnh tranh với ChatGPT

- Startup xAI của Elon Musk đã mở mã nguồn mô hình ngôn ngữ lớn Grok-1 với 314 tỷ tham số, cho phép bất kỳ ai sử dụng và phát triển mô hình này.
- Grok được phát hành dưới giấy phép Apache License 2.0, cho phép sử dụng thương mại, sửa đổi và phân phối.
- Kiến trúc của Grok sử dụng 25% trọng số cho một token nhất định, giúp tăng hiệu quả và hiệu suất của mô hình.
- Grok ban đầu được phát hành dưới dạng mô hình đóng vào tháng 11/2023 và chỉ có thể truy cập thông qua dịch vụ đăng ký trả phí X Premium+ trên mạng xã hội X (trước đây là Twitter).
- Việc mở mã nguồn Grok không bao gồm toàn bộ dữ liệu huấn luyện và kết nối với thông tin thời gian thực trên X.
- Grok được định vị là phiên bản hài hước và không kiểm duyệt hơn so với ChatGPT và các LLM hàng đầu khác.
- Việc mở mã nguồn Grok là một lập trường hữu ích cho Musk trong vụ kiện và chỉ trích chung đối với OpenAI.
- Cộng đồng AI trên X đã phản ứng với sự tò mò và phấn khích trước việc phát hành Grok.
- Việc phát hành Grok có khả năng gây áp lực lên tất cả các nhà cung cấp LLM khác, đặc biệt là các đối thủ mã nguồn mở, để chứng minh sự vượt trội của họ.

📌 Grok, mô hình ngôn ngữ lớn 314 tỷ tham số của xAI, đã chính thức mở mã nguồn. Động thái này cho phép bất kỳ ai sử dụng và phát triển Grok, tạo áp lực cạnh tranh lên các đối thủ như ChatGPT. Đây cũng là lập trường hữu ích cho Elon Musk trong vụ kiện với OpenAI.

https://venturebeat.com/ai/musks-grok-ai-goes-open-source/

Không có file đính kèm.

Nguồn tham khảo

169

AI mở-nguồn mở 2024-03-15 17:40:17

Huyền Chip: Bức tranh toàn cảnh về 900 công cụ AI mã nguồn mở phổ biến nhất năm 2023

- Tác giả Huyền Chip đã phân tích 845 repo phần mềm AI mã nguồn mở trên GitHub có từ 500 sao trở lên, tập trung vào stack xung quanh các mô hình nền tảng (foundation models).

- Stack AI mới bao gồm 4 lớp: cơ sở hạ tầng, phát triển mô hình, phát triển ứng dụng và ứng dụng. Năm 2023 chứng kiến sự bùng nổ của các công cụ mới, đặc biệt ở lớp ứng dụng và phát triển ứng dụng.

- Các ứng dụng AI phổ biến nhất là lập trình, chatbot và tổng hợp thông tin. Kỹ sư AI đang phát triển mạnh với các công cụ prompt engineering, giao diện AI, agent và framework.

- Phát triển mô hình tập trung vào tối ưu hóa suy luận, đánh giá mô hình và tinh chỉnh hiệu quả tham số. Cơ sở hạ tầng ít thay đổi hơn.

- 20 tài khoản GitHub hàng đầu kiểm soát 23% repo. Các cá nhân có thể tạo ra các ứng dụng AI có giá trị cao. Hơn 20.000 lập trình viên đã đóng góp gần 1 triệu commit.

- Hệ sinh thái mã nguồn mở của Trung Quốc đang phát triển mạnh trên GitHub với nhiều mô hình và công cụ hướng tới khán giả Trung Quốc.

- Nhiều repo nhanh chóng thu hút sự chú ý rồi lại nhanh chóng tụt dốc ("đường cong hype"). 18,8% repo không có sao mới trong 24 giờ qua.

📌 Huyền Chíp phân tích 900 công cụ AI mã nguồn mở cho thấy sự bùng nổ của hệ sinh thái AI trong năm 2023, đặc biệt ở lớp ứng dụng và phát triển ứng dụng. Hơn 20.000 lập trình viên đã đóng góp gần 1 triệu commit. Các cá nhân có thể tạo ra ứng dụng AI giá trị cao. Hệ sinh thái mã nguồn mở của Trung Quốc cũng đang phát triển mạnh.

Citations:
[1] https://huyenchip.com/2024/03/14/ai-oss.html

Không có file đính kèm.

Nguồn tham khảo

111

AI mở-nguồn mở 2024-03-13 16:07:58

Lý do Ấn Độ sẽ trở thành quốc gia dẫn đầu về AI nguồn mở.

- Ấn Độ đang nỗ lực phát triển các mô hình ngôn ngữ lớn (LLM) hỗ trợ các ngôn ngữ Ấn Độ như Hindi, Tamil, Kannada và Marathi dựa trên các mô hình nguồn mở như Llama2-7B.
- Phát triển các mô hình tiên tiến như GPT-4 đòi hỏi chi phí và nguồn lực lớn. Cách tiếp cận hợp tác dựa trên nguyên tắc nguồn mở sẽ giúp Ấn Độ tận dụng năng lực sẵn có, chia sẻ chi phí và đẩy nhanh quá trình phát triển LLM phù hợp với nhu cầu của Ấn Độ.
- Ấn Độ có sự đa dạng về ngôn ngữ, văn hóa và con người. Mô hình nguồn mở mang lại sự linh hoạt để tạo ra nhiều phiên bản theo nhu cầu người dùng, vị trí, khu vực, tôn giáo mà không cần phát minh lại từ đầu.
- Ấn Độ đã chứng tỏ năng lực xây dựng các mạng lưới và kiến trúc nguồn mở thông qua các Sản phẩm Công Kỹ thuật số (DPG) như UPI, DigiLocker và Aadhaar.
- Cộng đồng nhà phát triển của Ấn Độ đang phát triển mạnh mẽ với mức tăng trưởng 36% vào năm 2023 và đóng góp tích cực vào các dự án nguồn mở toàn cầu.
- Hầu hết các nỗ lực của Ấn Độ với AI tập trung vào việc nâng cao cộng đồng thiệt thòi và phá vỡ rào cản ngôn ngữ hiện có trong nước thông qua các ứng dụng sáng tạo giải quyết các thách thức kinh tế xã hội.

📌 Ấn Độ có tiềm năng lớn trở thành quốc gia dẫn đầu về AI nguồn mở nhờ sự hợp tác giữa chính phủ, doanh nghiệp, viện nghiên cứu và hệ sinh thái nhà phát triển đang lớn mạnh. Với trọng tâm vào cải thiện xã hội, Ấn Độ sẽ thể hiện cho thế giới tác động chuyển đổi của AI thông qua các ứng dụng sáng tạo giải quyết các thách thức cấp bách.

https://analyticsindiamag.com/why-will-india-champion-open-source-ai/

Không có file đính kèm.

Nguồn tham khảo

124

AI mở-nguồn mở 2024-03-11 16:37:20

Sự trỗi dậy của AI mã nguồn mở: Thực tiễn tốt nhất

- 76% mã trong cơ sở mã được quét là mã nguồn mở, tỷ lệ trong AI có thể cao hơn.

- Kỹ sư Google cho rằng mã nguồn mở sẽ vượt Google và OpenAI vì cộng đồng đã giải quyết các vấn đề cốt lõi.

- Lợi ích của mô hình ngôn ngữ lớn mã nguồn mở: bảo mật, minh bạch, giá rẻ, dễ tùy chỉnh. Rủi ro: tốn thời gian, hỗ trợ hạn chế, thiếu kiểm thử.

- Nhiều tổ chức phát hành mô hình mã nguồn mở: Meta (Llama 2), Mistral AI (Mistral 7B, Mixtral 8x7B), Google (FLAN-T5),...

- Doanh nghiệp nên tham gia hệ sinh thái AI mã nguồn mở, đồng thời giải quyết các vấn đề về bảo mật, khả năng sử dụng, ổn định và quản trị hiệu quả.

📌 AI mã nguồn mở đang phát triển mạnh mẽ với sự đóng góp của cộng đồng và các tổ chức lớn. Lợi ích của mô hình ngôn ngữ lớn mã nguồn mở: bảo mật, minh bạch, giá rẻ, dễ tùy chỉnh. Rủi ro: tốn thời gian, hỗ trợ hạn chế, thiếu kiểm thử. Tham gia vào hệ sinh thái này sẽ giúp doanh nghiệp thành công trong tương lai, đồng thời cần quản lý tốt rủi ro và mối đe dọa.

https://www.forbes.com/sites/forbesbusinesscouncil/2024/03/08/the-rise-of-open-artificial-intelligence-open-source-best-practices/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở 2024-03-11 15:53:46

elon musk: xai sẽ mã nguồn mở chatbot grok trong tuần này để đối đầu chatgpt

- Công ty xAI của Elon Musk sẽ mã nguồn mở chatbot Grok trong tuần này để cạnh tranh với ChatGPT.
- Grok được trang bị các tính năng như truy cập thông tin "thời gian thực" và quan điểm không bị ràng buộc bởi các chuẩn mực "chính trị đúng đắn".
- Musk trước đó đã kiện OpenAI, cáo buộc startup này đã trở nên đóng mã nguồn và chuyển hướng tập trung vào tối đa hóa lợi nhuận cho Microsoft.
- Vụ kiện đã châm ngòi tranh luận về ưu điểm của AI mã nguồn mở. Vinod Khosla cho rằng vụ kiện là sự xao nhãng, trong khi Marc Andreessen ủng hộ nghiên cứu AI nguồn mở.
- Việc hứa mã nguồn mở Grok sẽ giúp xAI gia nhập danh sách các công ty như Meta và Mistral đã công bố mã của chatbot ra công chúng.
- Musk vốn ủng hộ mã nguồn mở, Tesla đã mở mã nguồn nhiều bằng sáng chế, X (trước đây là Twitter) cũng mở mã nguồn một số thuật toán năm ngoái.

📌 Elon Musk tuyên bố xAI sẽ mã nguồn mở chatbot Grok để cạnh tranh với ChatGPT, sau khi kiện OpenAI vì cho rằng startup này đã đi chệch hướng từ triết lý nguồn mở. Động thái này châm ngòi tranh luận về AI mã nguồn mở, với Musk vốn ủng hộ mở mã nguồn tại Tesla và X (Twitter cũ).

https://techcrunch.com/2024/03/11/elon-musk-says-xai-will-open-source-grok-this-week/

Không có file đính kèm.

Nguồn tham khảo

166

AI mở-nguồn mở 2024-03-08 08:25:11

AI tạo sinh: nên đóng hay mở?

- Cuộc tranh luận về AI tạo sinh được khơi mào bởi vụ kiện của Elon Musk chống lại OpenAI và CEO Sam Altman.
- Marc Andreessen ủng hộ công nghệ AI nguồn mở, nhấn mạnh vào việc chia sẻ khoa học mở, tăng cường minh bạch và ngăn chặn Big Tech độc quyền công nghệ mạnh mẽ.
- Vinod Khosla ủng hộ AI đóng, cho rằng các công ty và thực thể tư nhân có thể bảo vệ chống lại nguy cơ và lạm dụng của AI.
- Meta đã ủng hộ AI nguồn mở và phát hành mô hình Llama 2 cho công chúng tải về và chỉnh sửa. Mistral AI, một công ty có trụ sở tại Paris, cũng đã phát hành các mô hình với "trọng số" mở.
- Andreessen cáo buộc Khosla đang vận động cấm nguồn mở sau khi Khosla bày tỏ sự ủng hộ đối với Altman và OpenAI trong bối cảnh vụ kiện của Musk.
- Khosla so sánh AI với vũ khí hạt nhân và cho rằng việc mở nguồn AI đe dọa an ninh quốc gia, đồng thời nhấn mạnh AI là lợi thế về "an ninh quốc gia và công nghệ" cần được bảo vệ chặt chẽ.
- Cả hai phe đều đồng ý rằng các mô hình ngôn ngữ lớn chưa phải là công nghệ hoàn thiện, có thể tạo ra kết quả sai lệch, thiên vị và tốn kém về chi phí sử dụng và đào tạo.

📌 Cuộc tranh luận giữa Marc Andreessen và Vinod Khosla trên Twitter đã làm sáng tỏ sự chia rẽ sâu sắc trong cộng đồng Silicon Valley về việc phát triển và phân phối AI tạo sinh. Andreessen ủng hộ mô hình nguồn mở để tăng cường minh bạch và ngăn chặn sự độc quyền, trong khi Khosla nhấn mạnh tầm quan trọng của việc bảo vệ AI như một biện pháp an ninh quốc gia. Cuộc tranh luận này không chỉ phản ánh quan điểm đối lập về cách tiếp cận phát triển AI mà còn làm nổi bật những thách thức trong việc tìm kiếm câu trả lời cho sự phát triển và an toàn của AI.

https://www.wsj.com/articles/should-ai-be-open-source-behind-the-tweetstorm-over-its-dangers-65aa5c97

Không có file đính kèm.

Nguồn tham khảo

157

AI mở-nguồn mở 2024-03-07 10:18:40

Khám phá Mistral AI: Đối thủ lớn của ChatGPT từ Pháp với các gói AI trả phí và miễn phí "Le Chat"

- Mistral AI, startup AI của Pháp, ra mắt ba gói AI trả phí - Mistral Large, Mistral Small, và Mistral Embedded - cùng với tùy chọn chatbot miễn phí "Le Chat".
- Mistral Large được quảng cáo là mạnh mẽ thứ hai chỉ sau ChatGPT 4 Turbo, với khả năng đáp ứng nhanh chóng và tùy biến cao.
- "Le Chat" miễn phí cho phép người dùng đăng ký và sử dụng chỉ với email và mật khẩu, cung cấp câu trả lời nhanh chóng cho mọi câu hỏi.
- Mistral Large hướng đến doanh nghiệp và người tiêu dùng sẵn sàng trả thêm cho trải nghiệm tốt hơn, với khả năng chống thiên vị và tùy chỉnh theo nhu cầu công ty.
- Mistral AI được sáng lập bởi Arthur Mensch, Timothée Lacroix, và Guillaume Lample, nhận đầu tư 15 triệu euro từ Microsoft để đưa Mistral Large lên nền tảng đám mây Azure.
- Mistral Large có giá $8/1M tokens (đầu vào) và $24/1M tokens (đầu ra), trong khi ChatGPT 4 Turbo có giá khởi điểm cao hơn.
- Mistral AI cung cấp các tính năng điều chỉnh và kiểm soát nâng cao, khác biệt so với ChatGPT, và có khả năng học và phản hồi bằng nhiều ngôn ngữ.

📌 Mistral AI, với ba gói dịch vụ AI và tùy chọn chatbot "Le Chat" miễn phí, đang tạo ra sự chú ý trong cuộc chiến giành vị thế trong lĩnh vực AI. Mistral Large nổi bật với khả năng tùy chỉnh cao và hiệu suất mạnh mẽ, trong khi "Le Chat" cung cấp một lựa chọn miễn phí cho người dùng muốn trải nghiệm AI mà không cần chi trả. Sự hợp tác với Microsoft cũng làm tăng cơ hội và tiềm năng của Mistral AI trên thị trường toàn cầu.

https://tech.co/news/what-is-mistral-ai-le-chat

Không có file đính kèm.

Nguồn tham khảo

180

AI đạo đức AI mở-nguồn mở 2024-03-02 22:28:26

Elon Musk và mọi người: Cuộc chiến mới trong AI

• Elon Musk đã khởi kiện OpenAI và Sam Altman, cáo buộc họ phản bội cam kết ban đầu khiến OpenAI từ một tổ chức phi lợi nhuận chuyển sang mục tiêu kiếm lời với Microsoft.
• Musk mô tả Google là "woke", Microsoft là quá mức vươn xa và Sam Altman là người hai mặt.
• Musk, qua xAI, đang cố gắng tạo ra một lựa chọn thay thế cho các đối thủ, mà ông cáo buộc có định kiến tự do, và mô tả nỗ lực của mình như là tìm kiếm điều tốt và "tò mò tối đa".
• Musk đã chỉ trích Google và Microsoft trên nền tảng truyền thông xã hội X, đặc biệt là về cách Google xử lý các câu hỏi liên quan đến chủng tộc và dân tộc qua chatbot AI của mình, Gemini.
• Trong khi đó, Sam Altman và OpenAI, qua việc hợp tác với Microsoft, bị cáo buộc sử dụng công nghệ AI không phải vì lợi ích của nhân loại mà để tối đa hóa lợi nhuận.
• Musk cũng đã thừa nhận cuộc chiến tài chính để phát triển công ty AI, nói rằng sẽ cần "ít nhất hàng tỷ đô la về phần cứng" để có một vị trí vững chắc trong lĩnh vực này.
• OpenAI đã chuyển từ một tổ chức phi lợi nhuận sang một cơ cấu có lợi nhuận để đáp ứng nhu cầu tài chính cho việc phát triển công nghệ, với Microsoft cam kết tài trợ lên đến 13 tỷ đô la.

📌 Cuộc chiến AI giữa Elon Musk và các đối thủ lớn như OpenAI, Google, và Microsoft không chỉ là một cuộc đua công nghệ mà còn là một trận chiến về quan điểm và đạo đức kinh doanh. Musk, qua việc khởi kiện và chỉ trích công khai, đang cố gắng định hình lại cảnh quan AI bằng cách đề xuất xAI như một lựa chọn thay thế với mục tiêu tốt đẹp và tò mò. Cuộc chiến này không chỉ thách thức các đối thủ về mặt công nghệ mà còn về cách họ tiếp cận và sử dụng AI, đặt ra câu hỏi lớn về tương lai và đạo đức của AI trong xã hội.

https://www.wsj.com/tech/ai/elon-musk-vs-everyone-the-new-fight-in-ai-405becea

Không có file đính kèm.

Nguồn tham khảo

138

AI models AI mở-nguồn mở 2024-03-01 07:36:20

Những điều cần biết về Mistral AI: Công ty đứng sau đối thủ GPT-4 mới nhất

- Mistral AI là một startup AI của Pháp, được đồng sáng lập bởi các cựu nhân viên của Meta là Timothée Lacroix và Guillaume Lample, cùng với nhà nghiên cứu trước đây của DeepMind là Arthur Mensch, ra mắt vào tháng 4 năm 2023.
- Trong tuần qua, Mistral AI đã công bố mối quan hệ đối tác với Microsoft, tích hợp với Amazon Bedrock và phát hành các mô hình AI mới nhất của mình.
- Mistral AI đã phát triển và phát hành nhiều mô hình AI cho nhu cầu sử dụng khác nhau, bao gồm cả các mô hình thương mại và nguồn mở.
- Mô hình mới nhất và mạnh mẽ nhất của Mistral AI, Mistral Large, được công bố vào thứ Hai, cho thấy hiệu suất gần như tương đương với GPT-4 của OpenAI trên nhiều bài kiểm tra chuẩn và vượt trội so với các mô hình ngôn ngữ hàng đầu khác như Claude 2, Gemini Pro, GPT 3.5, và LLamA 2 70B.
- Mistral Large có khả năng sử dụng thành thạo tiếng Anh, Pháp, Tây Ban Nha, Đức, và Ý, trong khi GPT-4 chỉ hiểu tiếng Anh, làm cho nó trở thành một đối thủ cạnh tranh mạnh mẽ với mô hình mạnh nhất của OpenAI.

📌 Mistral AI ra đời vào tháng 4 năm 2023 và sự đồng sáng lập bởi các chuyên gia hàng đầu trong lĩnh vực AI. Sự hợp tác với Microsoft và tích hợp với Amazon Bedrock cùng với việc phát hành mô hình Mistral Large cho thấy sự tiến bộ vượt bậc và khả năng cạnh tranh cao của Mistral AI so với các đối thủ như OpenAI. Mistral Large có khả năng sử dụng thành thạo tiếng Anh, Pháp, Tây Ban Nha, Đức, và Ý, trong khi GPT-4 chỉ hiểu tiếng Anh, làm cho nó trở thành một đối thủ cạnh tranh mạnh mẽ với mô hình mạnh nhất của OpenAI. Điều này góp phần làm phong phú thêm lựa chọn cho người dùng và doanh nghiệp trong việc áp dụng công nghệ AI vào thực tiễn.

Citations:
[1] https://www.zdnet.com/article/what-to-know-about-mistral-ai-the-company-behind-the-latest-gpt-4-rival/

Không có file đính kèm.

Nguồn tham khảo

213

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-02-29 21:37:29

Công cụ tạo hình ảnh AI mới nhanh hơn 8 lần so với công cụ tốt nhất của OpenAI - và có thể chạy trên máy tính giá rẻ

- Công cụ AI mới có tên "KOALA" được phát triển bởi các nhà khoa học Hàn Quốc, có khả năng tạo hình ảnh trong vòng dưới 2 giây mà không cần phần cứng đắt tiền.
- Sử dụng kỹ thuật "knowledge distillation" để nén kích thước của mô hình tạo hình ảnh nguồn mở Stable Diffusion XL từ 2.56 tỷ tham số xuống còn 700 triệu tham số.
- KOALA có thể chạy trên GPU giá rẻ và chỉ cần khoảng 8GB RAM để xử lý yêu cầu, so với các mô hình lớn hơn cần GPU công nghiệp cao cấp.
- Viện Nghiên cứu Điện tử và Viễn thông Hàn Quốc (ETRI) đã phát triển 5 phiên bản của mô hình, bao gồm 3 phiên bản của KOALA và 2 phiên bản của "Ko-LLaVA" - có khả năng trả lời câu hỏi bằng hình ảnh hoặc video dựa trên văn bản đầu vào.
- Trong thử nghiệm, KOALA tạo ra hình ảnh từ mô tả "một bức ảnh của một phi hành gia đang đọc sách dưới ánh trăng trên sao Hỏa" chỉ trong 1.6 giây, nhanh hơn đáng kể so với DALL·E 2 và DALL·E 3 của OpenAI, lần lượt là 12.3 và 13.7 giây.
- Các nhà khoa học dự định tiếp tục phát triển công cụ này và đã công bố kết quả nghiên cứu trên cơ sở dữ liệu trước in arXiv vào ngày 7 tháng 12 năm 2023, đồng thời cung cấp công trình của họ thông qua kho nguồn mở AI Hugging Face.

📌Công cụ AI mới "KOALA" của Viện Nghiên cứu Điện tử và Viễn thông Hàn Quốc (ETRI) đánh dấu một bước tiến quan trọng trong lĩnh vực tạo hình ảnh bằng AI, với khả năng tạo hình ảnh nhanh gấp 8 lần so với công cụ hàng đầu của OpenAI, chạy trên GPU giá rẻ và chỉ cần khoảng 8GB RAM, làm cho công nghệ này trở nên tiếp cận được với nhiều người hơn. Các nhà khoa học dự định tiếp tục phát triển công cụ này và đã công bố kết quả nghiên cứu trên cơ sở dữ liệu trước in arXiv vào ngày 7 tháng 12 năm 2023, đồng thời cung cấp công trình của họ thông qua kho nguồn mở AI Hugging Face.

Citations:
[1] https://www.livescience.com/technology/artificial-intelligence/new-ai-image-generator-koala-is-8-times-faster-than-openais-best-tool-and-can-run-on-cheap-computers

Không có file đính kèm.

Nguồn tham khảo

172

AI models AI mở-nguồn mở 2024-02-29 10:29:00

Meta có kế hoạch ra mắt mô hình ngôn ngữ AI mới Llama 3 vào tháng 7

- Meta dự kiến ra mắt mô hình ngôn ngữ AI mới, LLaMA 3, vào tháng 7, nhằm cạnh tranh với các công ty công nghệ lớn khác như OpenAI và Google.
- LLaMA 3 được thiết kế để cải thiện hiệu suất và độ chính xác trong việc xử lý ngôn ngữ tự nhiên, mở ra khả năng ứng dụng rộng rãi trong nhiều lĩnh vực.
- Meta đã công bố thông tin này thông qua một báo cáo từ The Information, nhấn mạnh sự tập trung vào việc phát triển AI và công nghệ ngôn ngữ.
- Sự ra mắt của LLaMA 3 là một phần của nỗ lực lớn hơn của Meta trong việc nắm bắt cơ hội trong lĩnh vực AI, đặc biệt là sau thành công của các mô hình như ChatGPT của OpenAI.
- Meta không chỉ nhấn mạnh vào việc cải thiện công nghệ mà còn vào việc tạo ra một môi trường mở và hợp tác, cho phép các nhà nghiên cứu và phát triển từ khắp nơi trên thế giới tiếp cận và cải thiện mô hình.

📌 Meta đang chuẩn bị ra mắt mô hình ngôn ngữ AI mới, LLaMA 3, vào tháng 7, với mục tiêu cạnh tranh trong lĩnh vực công nghệ AI ngày càng sôi động. LLaMA 3 hứa hẹn sẽ mang lại những cải tiến đáng kể về hiệu suất và độ chính xác, mở ra khả năng ứng dụng trong nhiều lĩnh vực khác nhau, từ hỗ trợ khách hàng đến phân tích dữ liệu. Meta không chỉ nhấn mạnh vào việc cải thiện công nghệ mà còn vào việc tạo ra một môi trường mở và hợp tác, cho phép các nhà nghiên cứu và phát triển từ khắp nơi trên thế giới tiếp cận và cải thiện mô hình.

Citations:
[1] https://www.reuters.com/technology/meta-plans-launch-new-ai-language-model-llama-3-july-information-reports-2024-02-28/

Không có file đính kèm.

Nguồn tham khảo

292

AI pháp lý-quản trị-chủ quyền AI mở-nguồn mở AI nhỏ 2024-02-29 08:24:32

Gặp gỡ công ty khởi nghiệp Mistral của Pháp hy vọng cạnh tranh với OpenAI

- Mistral là sự kết hợp hoàn hảo giữa giáo dục kỹ thuật Pháp và các công ty công nghệ lớn của Mỹ, với 3 trong số 6 người sáng lập là sản phẩm của các trường kỹ thuật hàng đầu của Pháp.
- Các nhà sáng lập Mistral có kinh nghiệm làm việc tại các phòng thí nghiệm nghiên cứu của Google và Meta, đặc biệt là trong việc xây dựng các mô hình ngôn ngữ lớn (LLMs) tại Paris.
- Mistral đã đặc biệt giỏi trong việc thu thập dữ liệu để huấn luyện mô hình của mình, cho phép các mô hình của họ nhỏ hơn nhiều so với các mô hình khác như GPT-4 của OpenAI.
- Sự tập trung vào việc lựa chọn dữ liệu của Mistral giúp công ty sử dụng sức mạnh tính toán một cách hiệu quả hơn, với chi phí huấn luyện mô hình mới thấp hơn nhiều so với 100 triệu USD mà OpenAI đã chi cho GPT-4.
- Mistral cũng tận dụng lợi thế của người đi sau, học hỏi từ công việc mà OpenAI và các công ty khác đã làm, và kết hợp với sự hiểu biết về chính trị, điều này rất có lợi khi nhiều chính phủ coi LLMs nội địa là lợi thế kinh tế và chiến lược.
- Cédric O, một trong những người đồng sáng lập Mistral và cựu Bộ trưởng Kỹ thuật số Pháp, giữ mối liên hệ trực tiếp với Tổng thống Emmanuel Macron, người đã quan tâm sâu sắc đến AI và đã hỗ trợ Mistral trong việc chống lại các quy định của Liên minh Châu Âu về AI.

📌 Mistral đã chứng minh sự thành công của mình thông qua việc kết hợp tài năng kỹ thuật từ các trường kỹ thuật hàng đầu của Pháp và kinh nghiệm từ các công ty công nghệ lớn như Google và Meta. Sự thông minh trong việc lựa chọn và quản lý dữ liệu đã giúp Mistral tạo ra các mô hình AI hiệu quả hơn với chi phí thấp hơn, đồng thời tận dụng lợi thế của người đi sau để phát triển nhanh chóng. Sự kết hợp giữa chuyên môn kỹ thuật và sự hiểu biết về chính trị, cùng với sự hỗ trợ từ cựu Bộ trưởng Kỹ thuật số Pháp và Tổng thống Emmanuel Macron, đã tạo nên một lợi thế cạnh tranh mạnh mẽ cho Mistral trong ngành công nghiệp AI đang phát triển nhanh chóng.

Citations:
[1] https://www.economist.com/business/2024/02/26/meet-the-french-startup-hoping-to-take-on-openai

Không có file đính kèm.

Nguồn tham khảo

180

AI models AI mở-nguồn mở 2024-02-27 21:34:38

Reliance và 9 IIT sẽ ra mắt mô hình AI BharatGPT Hanooman của Ấn Độ

- Mô hình AI BharatGPT Hanooman được phát triển bởi Reliance và 9 IIT, đánh dấu bước tiến quan trọng trong việc ứng dụng AI cho phát triển xã hội và kinh tế Ấn Độ.
- Mô hình là một mô hình ngôn ngữ lớn (LLM) được huấn luyện trên 22 ngôn ngữ Ấn Độ, ban đầu hỗ trợ trả lời trong 11 ngôn ngữ và có kế hoạch mở rộng để bao gồm tất cả 22 ngôn ngữ.
- BharatGPT Hanooman có khả năng AI đa phương tiện, cho phép tạo nội dung từ văn bản sang văn bản, văn bản sang giọng nói, văn bản sang video và ngược lại, mở ra ứng dụng rộng rãi trong nhiều lĩnh vực như y tế, quản lý, dịch vụ tài chính và giáo dục.
- Mô hình có kích thước và độ phức tạp lớn, với số lượng tham số từ 1.5 tỷ đến 40 tỷ, cho phép tạo ra các phản hồi tinh tế và phù hợp với ngữ cảnh trong các ngôn ngữ Ấn Độ.
- Để thúc đẩy sự đổi mới và tiếp cận, mô hình sẽ được nguồn mở, cho phép các nhà phát triển và nhà nghiên cứu tận dụng khả năng của nó và đóng góp vào sự phát triển tiếp theo.

📌 BharatGPT Hanooman, một sáng kiến hợp tác giữa Reliance và 9 IIT, đại diện cho một bước tiến lớn trong lĩnh vực AI tại Ấn Độ, với mục tiêu không chỉ nâng cao khả năng tiếp cận công nghệ AI trong nước mà còn thúc đẩy sự đổi mới và phát triển kỹ thuật số.Mô hình là một mô hình ngôn ngữ lớn (LLM) được huấn luyện trên 22 ngôn ngữ Ấn Độ, ban đầu hỗ trợ trả lời trong 11 ngôn ngữ và có kế hoạch mở rộng để bao gồm tất cả 22 ngôn ngữ.Mô hình có kích thước và độ phức tạp lớn, với số lượng tham số từ 1.5 tỷ đến 40 tỷ, cho phép tạo ra các phản hồi tinh tế và phù hợp với ngữ cảnh trong các ngôn ngữ Ấn Độ. Để thúc đẩy sự đổi mới và tiếp cận, mô hình sẽ được nguồn mở.

Citations:
[1] https://economictimes.indiatimes.com/news/how-to/reliance-and-9-iits-set-to-unveil-bharatgpt-hanooman-next-month-heres-your-guide-to-the-new-ai-model/articleshow/107982956.cms

Không có file đính kèm.

Nguồn tham khảo

116

AI mở-nguồn mở 2024-02-27 00:58:13

Microsoft hợp tác với Mistral trong thỏa thuận AI thứ hai ngoài OpenAI

- Microsoft đã công bố một quan hệ đối tác nhiều năm với Mistral, một startup AI của Pháp có giá trị 2 tỷ euro (khoảng 2,1 tỷ đô la).

- Quan hệ đối tác bao gồm việc Microsoft nắm giữ cổ phần nhỏ trong công ty AI mới thành lập 10 tháng tuổi, sau hơn một năm Microsoft đầu tư hơn 10 tỷ đô la vào quan hệ đối tác với OpenAI.
- Thỏa thuận này sẽ cho phép các mô hình ngôn ngữ mở và thương mại của Mistral có sẵn trên nền tảng Azure AI của Microsoft, trở thành công ty thứ hai sau OpenAI cung cấp mô hình ngôn ngữ thương mại trên Azure.
- Quan hệ đối tác giữa Microsoft và Mistral cũng tập trung vào việc phát triển và triển khai các mô hình ngôn ngữ lớn thế hệ tiếp theo.
- Mistral công bố một mô hình AI mới hôm nay, có tên là Mistral Large, được thiết kế để cạnh tranh chặt chẽ hơn với mô hình GPT-4 của OpenAI. Khác với một số mô hình trước đây của Mistral, mô hình này sẽ không được nguồn mở.
- Mistral Large đạt được kết quả mạnh mẽ trên các chuẩn mực thường được sử dụng, trở thành mô hình được xếp hạng thứ hai trên thế giới có sẵn thông qua API (sau GPT-4).
- Mistral cũng giới thiệu một chatbot mới, Le Chat, dựa trên các mô hình từ Mistral AI.
- Quan hệ đối tác với Microsoft giúp Mistral có thể khám phá thêm cơ hội thương mại, mặc dù trước đây các mô hình của Mistral thường là nguồn mở.

📌 Microsoft đã mở rộng ảnh hưởng của mình trong lĩnh vực AI thông qua quan hệ đối tác mới với Mistral, một startup AI Pháp, đánh dấu một bước tiến quan trọng sau quan hệ đối tác với OpenAI. Thỏa thuận này không chỉ làm tăng cơ hội thương mại cho Mistral mà còn củng cố vị thế của Microsoft trong việc phát triển và triển khai các mô hình ngôn ngữ lớn thế hệ tiếp theo. Mistral Large, mô hình mới được công bố, hứa hẹn sẽ cạnh tranh sát sao với GPT-4 của OpenAI, đồng thời Mistral cũng giới thiệu chatbot mới, Le Chat, mở ra hướng đi mới cho các ứng dụng AI trong tương lai.

Citations:
[1] https://www.theverge.com/2024/2/26/24083510/microsoft-mistral-partnership-deal-azure-ai

Không có file đính kèm.

Nguồn tham khảo

143

AI models AI mở-nguồn mở 2024-02-27 00:54:31

Mistral AI phát hành mô hình mới cạnh tranh với GPT-4 và trợ lý trò chuyện

- Mistral AI, một startup AI có trụ sở tại Paris, đã công bố ra mắt mô hình ngôn ngữ lớn mới có tên Mistral Large, nhằm cạnh tranh với các mô hình hàng đầu khác như GPT-4 và Claude 2.
- Mistral Large được thiết kế với khả năng suy luận nhằm đối đầu với các mô hình AI hàng đầu khác, và Mistral AI cũng giới thiệu dịch vụ trợ lý chat mới có tên Le Chat, hiện đang ở phiên bản beta.
- Mistral AI được thành lập vào tháng 5 năm 2023 và đã nhanh chóng gây quỹ được một lượng tiền lớn, bao gồm vòng gọi vốn hạt giống 113 triệu USD và một vòng gọi vốn khác vào tháng 12 với 415 triệu USD do Andreessen Horowitz (a16z) dẫn dắt.
- Công ty tuyên bố rằng Mistral Large xếp thứ hai sau GPT-4 dựa trên một số tiêu chuẩn đánh giá, mặc dù có thể có sự chọn lọc tiêu chuẩn và sự khác biệt trong việc sử dụng thực tế.
- Le Chat, dịch vụ trợ lý chat mới của Mistral AI, cho phép người dùng chọn giữa ba mô hình khác nhau: Mistral Small, Mistral Large và một mô hình nguyên mẫu được thiết kế để ngắn gọn và xúc tích có tên Mistral Next.
- Dịch vụ này hiện miễn phí nhưng công ty cũng có kế hoạch ra mắt phiên bản trả phí dành cho khách hàng doanh nghiệp với các tính năng như thanh toán trung tâm.

📌 Mistral AI đang nổi lên như một đối thủ đáng gờm trong lĩnh vực AI với việc ra mắt Mistral Large và Le Chat, nhằm cạnh tranh trực tiếp với GPT-4 và các mô hình AI hàng đầu khác. Sự ra đời của Mistral Large, với khả năng suy luận mạnh mẽ, và Le Chat, một dịch vụ trợ lý chat linh hoạt, cho thấy Mistral AI không chỉ tập trung vào việc phát triển công nghệ mà còn hướng tới việc tạo ra các sản phẩm thực tế có giá trị cho người dùng. Với sự hỗ trợ tài chính mạnh mẽ từ các vòng gọi vốn và sự dẫn dắt của Andreessen Horowitz, Mistral AI có tiềm năng lớn để trở thành một trong những người chơi chính trong cuộc đua phát triển AI.

Citations:
[1] https://techcrunch.com/2024/02/26/mistral-ai-releases-new-model-to-rival-gpt-4-and-its-own-chat-assistant/

Không có file đính kèm.

Nguồn tham khảo

169

AI mở-nguồn mở 2024-02-25 21:43:10

Cuộc tranh luận lớn về AI: Mô hình mã nguồn mở và đóng trong cuộc đối đầu toàn cầu

- Không có cơ quan nào đang điều chỉnh AI trên toàn thế giới, các quốc gia phương Tây cẩn trọng với công nghệ của mình vì lo ngại bị đánh cắp, trong khi Trung Quốc mở cửa mô hình AI của họ cho sự phát triển cộng tác.
- Mô hình ngôn ngữ lớn nguồn mở (LLM) từ Trung Quốc đang dẫn đầu với số lượng token lớn, cho thấy chúng không chỉ bắt kịp mà còn vượt qua các mô hình sở hữu.
- Mỗi tuần, cộng đồng AI nguồn mở ở Trung Quốc đều có những đột phá mới. Ví dụ, Deepseek của Trung Quốc đã phát hành một LLM mạnh 67 tỷ tham số được huấn luyện trên bộ dữ liệu gồm hai nghìn tỷ token.
- Các nỗ lực quy định cụ thể cho AI đang được phát triển ở Canada, Brazil, Chile và Philippines. Ở Ấn Độ, chính phủ đã xem xét một cách tiếp cận không quy định, nhấn mạnh vào việc cần phải đổi mới, thúc đẩy và thích nghi với sự tiến bộ nhanh chóng của công nghệ AI.
- Công nghệ phát triển nhanh hơn quy định, các nhà theo dõi thị trường và phân tích yêu cầu một định nghĩa tiêu chuẩn của công nghệ để theo dõi mục tiêu tăng trưởng của nó.

📌 Cuộc tranh luận về AI giữa mô hình nguồn mở và đóng đang diễn ra sôi nổi, phản ánh sự chia rẽ giữa các quốc gia phương Tây và Trung Quốc. Trong khi các quốc gia phương Tây thận trọng với công nghệ của mình, Trung Quốc đã mở cửa mô hình AI của họ, thúc đẩy sự phát triển cộng tác. Mô hình ngôn ngữ lớn nguồn mở từ Trung Quốc đang dẫn đầu, với các đột phá mới mỗi tuần, như Deepseek phát hành một LLM mạnh 67 tỷ tham số. Các nỗ lực quy định AI đang được phát triển ở nhiều quốc gia, nhưng công nghệ phát triển nhanh hơn quy định, yêu cầu một định nghĩa tiêu chuẩn của công nghệ để theo dõi mục tiêu tăng trưởng của nó.

Citations:
[1] https://economictimes.indiatimes.com/tech/technology/the-great-ai-debate-open-source-vs-proprietary-models-in-global-showdown/articleshow/107973022.cms

Không có file đính kèm.

Nguồn tham khảo

135

AI mở-nguồn mở AI models 2024-02-22 22:13:18

Google ra mắt hai LLM mở mới

- Google đã công bố ra mắt hai mô hình ngôn ngữ lớn (LLMs) mới có tên là Gemma.
- Các mô hình này không phải là nguồn mở, điều này được Jeanine Banks từ Google nhấn mạnh trong một cuộc họp báo trước khi thông báo chính thức được đưa ra.
- Google khẳng định cam kết của mình đối với nguồn mở, nhưng cũng rất cẩn trọng trong cách đặt tên và mô tả các mô hình Gemma.
- Tris Warkentin, giám đốc quản lý sản phẩm của Google DeepMind, đã nói rằng chất lượng tạo sinh của các mô hình AI đã cải thiện đáng kể trong năm qua.
- Những gì trước đây chỉ có thể thực hiện được bởi các mô hình cực lớn nay đã có thể đạt được với các mô hình nhỏ gọn hiện đại.

📌 Google đã tiến thêm một bước lớn trong lĩnh vực AI với việc giới thiệu hai mô hình ngôn ngữ lớn mới, Gemma, mặc dù chúng không được phát hành dưới dạng nguồn mở. Sự kiện này cho thấy sự tiến bộ vượt bậc trong chất lượng tạo sinh của AI, khi những công việc trước đây chỉ có thể do các mô hình lớn thực hiện nay đã trở nên khả thi với các mô hình nhỏ gọn hơn. Google, với cam kết của mình đối với nguồn mở, đã thể hiện sự thận trọng trong việc định hình và quảng bá cho các mô hình Gemma, điều này có thể phản ánh một chiến lược cân nhắc giữa việc chia sẻ công nghệ và bảo vệ sở hữu trí tuệ.

Citations:
[1] https://techcrunch.com/2024/02/21/google-launches-two-new-open-llms/

Không có file đính kèm.

Nguồn tham khảo

193

AI mở-nguồn mở 2024-02-22 22:01:36

AnyGPT any-to-any open source multimodal large language model (LLM)

- AnyGPT là một mô hình ngôn ngữ lớn đa phương tiện (LLM) nguồn mở, tập trung vào việc tạo ra nội dung đa phương tiện phong phú.
- Mã nguồn của AnyGPT có sẵn dưới dạng nguồn mở, cho phép bất kỳ ai quan tâm đến AI có thể truy cập, chỉnh sửa và cải thiện chức năng của mô hình.
- Sự phát triển của AnyGPT là một nỗ lực lớn, bao gồm việc tạo ra một bộ dữ liệu đa dạng bao gồm các hình thức nói, văn bản, hình ảnh và âm nhạc.
- Bộ dữ liệu rộng lớn này giúp AnyGPT hiểu được sắc thái của các loại dữ liệu khác nhau và cách chúng có thể được kết hợp hoặc biến đổi.
- AnyGPT không chỉ là một công cụ dịch thuật mà còn là một người tạo ra, có khả năng tạo ra các đầu ra có thể kích thích giác quan của chúng ta theo nhiều cách.
- Mô hình sử dụng một bộ dữ liệu toàn diện chứa thông tin hỗn hợp (nói, văn bản, hình ảnh, âm nhạc) để đào tạo mô hình xử lý đầu vào đa phương tiện.
- Quy trình tạo bộ dữ liệu hai giai đoạn: bao gồm việc tạo ra các cuộc đối thoại đa phương tiện từ các cuộc trò chuyện văn bản và kết hợp các chế độ khác nhau như hình ảnh và âm thanh để làm giàu bộ dữ liệu đào tạo.

📌AnyGPT là mô hình ngôn ngữ lớn đa phương tiện nguồn mở, tập trung vào việc tạo ra nội dung đa phương tiện phong phú, nâng cao khả năng hiểu và tạo ra các phản hồi phức tạp, đa phương tiện. Sự mở mã nguồn và sự đa dạng của bộ dữ liệu làm cho AnyGPT trở thành một nền tảng tiên tiến, mở rộng khả năng của tương tác AI đa phương tiện. Điều này không chỉ thúc đẩy sự sáng tạo trong cộng đồng AI mà còn mở ra cơ hội cho việc ứng dụng AI trong nhiều lĩnh vực mới một cách tự nhiên và trực quan hơn.

Citations:
[1] https://www.geeky-gadgets.com/anygpt-multimodal-large-language-model/

Không có file đính kèm.

Nguồn tham khảo

131

AI mở-nguồn mở AI data 2024-02-22 21:45:09

Build LLM-Powered Data Agent for Data Analysis

- Bài viết giới thiệu cách xây dựng ứng dụng agent dữ liệu được hỗ trợ bởi LLM (Large Language Models) cho mục đích phân tích dữ liệu.
- Khuyến khích khám phá hệ sinh thái nguồn mở để chọn khung đại lý phù hợp nhất cho ứng dụng của bạn.
- Đề xuất sử dụng Mixtral 8x7B LLM có sẵn trong danh mục NVIDIA NGC, hỗ trợ tăng tốc các mô hình và cung cấp chúng dưới dạng API.
- Các lời gọi API đầu tiên cho mỗi mô hình được miễn phí để thử nghiệm.
- Bài viết cũng giới thiệu về phòng thí nghiệm thực hành miễn phí "AI Chatbot with Retrieval-Augmented Generation" giúp xây dựng giải pháp đáng tin cậy và có khả năng mở rộng.

📌 Bài viết trên blog kỹ thuật của NVIDIA cung cấp một hướng dẫn chi tiết về cách xây dựng ứng dụng agent dữ liệu được hỗ trợ bởi LLM cho phân tích dữ liệu, nhấn mạnh vào việc khám phá hệ sinh thái nguồn mở để tìm kiếm khung agent tốt nhất. Sử dụng Mixtral 8x7B LLM từ danh mục NVIDIA NGC là một lựa chọn được đề xuất, với ưu điểm là hỗ trợ tăng tốc các mô hình và cung cấp API miễn phí cho các lời gọi đầu tiên. Bài viết cũng giới thiệu về phòng thí nghiệm thực hành miễn phí "AI Chatbot with Retrieval-Augmented Generation" giúp xây dựng giải pháp đáng tin cậy và có khả năng mở rộng.

Citations:
[1] https://developer.nvidia.com/blog/build-an-llm-powered-data-agent-for-data-analysis/

Không có file đính kèm.

Nguồn tham khảo

178

AI mở-nguồn mở 2024-02-21 21:28:46

AI nguồn mở và AI nguồn đóng: Sự khác biệt là gì và tại sao nó lại quan trọng?

- Các nhà quản lý, start-up và Big Tech chia thành hai phe trong cuộc tranh luận về AI nguồn mở và nguồn đóng, nơi an toàn và lợi nhuận được ưu tiên.
- Cuộc chiến giữa các công ty AI tạo sinh đang diễn ra với hai phe cạnh tranh: phần mềm nguồn mở so với nguồn đóng.
- Trong cuộc tranh luận, việc công nghệ được dân chủ hóa là chìa khóa, nhưng an toàn và lợi nhuận được ưu tiên hàng đầu.
- Phần mềm nguồn mở cho phép mã nguồn được công khai, khuyến khích sự sáng tạo và đổi mới khi các nhà phát triển có thể xây dựng và chỉnh sửa các thuật toán AI và mô hình đã được đào tạo trước.
- AI nguồn đóng hạn chế việc sử dụng và chỉnh sửa mã nguồn cho riêng công ty sở hữu, không cho phép người dùng xây dựng hoặc chỉnh sửa.
- Các công ty AI nguồn mở dễ dàng huy động vốn hơn, có nhiều nguồn lực hơn để đổi mới.
- Mistral, một công ty AI của Pháp, mở mã nguồn cho trọng số mô hình nhưng không cho dữ liệu hoặc quy trình đào tạo.
- Các công ty tuyên bố là nguồn mở cho rằng họ đang làm cho công nghệ dễ tiếp cận hơn cho mọi người và cân bằng lĩnh vực chính trị, cho phép kiểm toán mã nguồn.
- Các công ty AI nguồn đóng như OpenAI (tạo ra ChatGPT) cho rằng nguồn mở đe dọa an toàn của chúng ta.

📌 Trong cuộc tranh luận giữa AI nguồn mở và nguồn đóng, mỗi bên đều có những lập luận về an toàn và lợi nhuận. AI nguồn mở khuyến khích sự sáng tạo và đổi mới thông qua việc chia sẻ mã nguồn, trong khi AI nguồn đóng giữ mã nguồn riêng tư, hạn chế sự chỉnh sửa. Các công ty nguồn mở có lợi thế trong việc huy động vốn và đổi mới, nhưng cũng phải đối mặt với thách thức về việc chia sẻ dữ liệu và quy trình đào tạo. Cuộc tranh luận cũng nêu bật tầm quan trọng của việc làm cho công nghệ dễ tiếp cận và minh bạch, đồng thời đề cập đến mối quan tâm về an toàn khi mã nguồn được mở.

Citations:
[1] https://www.euronews.com/next/2024/02/20/open-source-vs-closed-source-ai-whats-the-difference-and-why-does-it-matter

Không có file đính kèm.

Nguồn tham khảo

138

AI mở-nguồn mở 2024-02-20 16:15:27

Generative AI Startup Mistral phát hành LLM tham số 7.3B 'mã nguồn mở' miễn phí

- Mistral, một startup về AI tạo sinh, đã phát hành một mô hình ngôn ngữ lớn (LLM) với 7.3 tỷ tham số dưới dạng nguồn mở và miễn phí.
- Mô hình này và các sản phẩm tương tự khác của Mistral đều được cấp phép dưới Apache 2.0, nhằm mục đích chứng minh khả năng của các LLM nguồn mở kích thước vừa phải trong các dự án AI tạo sinh.
- Trình duyệt web Brave đã chọn Mixtral 8x7B, một mô hình của Mistral, làm mô hình mặc định cho trợ lý AI tạo sinh của mình, Leo.

📌 Mistral, một startup trong lĩnh vực AI tạo sinh, đã đạt được bước tiến quan trọng bằng việc phát hành một mô hình ngôn ngữ lớn với 7,3 tỷ tham số dưới dạng nguồn mở và miễn phí. Sự kiện này không chỉ làm nổi bật khả năng và tiềm năng của các LLM nguồn mở kích thước vừa phải trong việc hỗ trợ các dự án AI tạo sinh, mà còn cho thấy sự chấp nhận và ứng dụng rộng rãi của công nghệ này trong ngành công nghiệp. Việc trình duyệt Brave chọn Mixtral 8x7B làm mô hình mặc định cho trợ lý AI của mình cũng là một minh chứng cho tiềm năng và sự tin tưởng vào công nghệ AI tạo sinh của Mistral.

Citations:
[1] https://voicebot.ai/2024/02/19/generative-ai-startup-mistral-releases-free-open-source-7-3b-parameter-llm-2/

Không có file đính kèm.

Nguồn tham khảo

129

AI pháp lý-quản trị-chủ quyền AI minh bạch AI mở-nguồn mở 2024-02-17 21:56:20

Luật AI cứng rắn của EU có ý nghĩa gì đối với nghiên cứu và ChatGPT

- Các quốc gia Liên minh Châu Âu (EU) đang chuẩn bị áp dụng bộ luật đầu tiên trên thế giới để quản lý trí tuệ nhân tạo (AI), với mục tiêu đảm bảo an toàn và tôn trọng quyền cơ bản và giá trị của EU.

- Luật AI của EU áp dụng các quy tắc nghiêm ngặt nhất cho các mô hình AI có rủi ro cao và được thiết kế để đảm bảo các hệ thống AI an toàn, minh bạch và không phân biệt đối xử.
- Các chính phủ của các quốc gia EU đã phê duyệt dự luật vào ngày 2 tháng 2, và bây giờ chỉ cần sự chấp thuận cuối cùng từ Nghị viện Châu Âu, dự kiến sẽ diễn ra vào tháng 4. Nếu văn bản không thay đổi, luật sẽ có hiệu lực vào năm 2026.
- Một số nhà nghiên cứu hoan nghênh đạo luật vì tiềm năng khuyến khích khoa học mở, trong khi những người khác lo ngại rằng nó có thể làm chậm sự đổi mới.
- EU chọn cách quản lý các mô hình AI dựa trên rủi ro tiềm ẩn của chúng, áp dụng quy tắc nghiêm ngặt hơn cho các ứng dụng rủi ro cao và đề ra quy định riêng biệt cho các mô hình AI đa dụng như GPT.
- Các mô hình AI mạnh mẽ như GPT sẽ được quản lý trong hai hạng mục riêng biệt, với yêu cầu về minh bạch, phương pháp đào tạo, tiêu thụ năng lượng và tuân thủ luật bản quyền.
- Đạo luật cũng khuyến khích AI nguồn mở, làm cho thông tin AI có thể truy cập, sao chép và minh bạch, điều này phản ánh tinh thần của phong trào nguồn mở.
- Ủy ban Châu Âu sẽ tạo ra một Văn phòng AI để giám sát các mô hình đa dụng, với sự tư vấn từ các chuyên gia độc lập, phát triển cách đánh giá năng lực của các mô hình này và giám sát rủi ro liên quan.

📌 Luật AI của EU áp dụng các quy tắc nghiêm ngặt nhất cho các mô hình AI có rủi ro cao và được thiết kế để đảm bảo các hệ thống AI an toàn, minh bạch và không phân biệt đối xử. Các mô hình AI mạnh mẽ như GPT sẽ được quản lý trong hai hạng mục riêng biệt, với yêu cầu về minh bạch, phương pháp đào tạo, tiêu thụ năng lượng và tuân thủ luật bản quyền. Đạo luật cũng khuyến khích AI nguồn mở, làm cho thông tin AI có thể truy cập, sao chép và minh bạch, điều này phản ánh tinh thần của phong trào nguồn mở. Ủy ban Châu Âu sẽ tạo ra một Văn phòng AI để giám sát các mô hình đa dụng, với sự tư vấn từ các chuyên gia độc lập, phát triển cách đánh giá năng lực của các mô hình này và giám sát rủi ro liên quan.

https://www.nature.com/articles/d41586-024-00497-8

Không có file đính kèm.

Nguồn tham khảo

172

AI mở-nguồn mở 2024-02-11 07:57:31

Yann LeCun về cách tiếp cận nguồn mở có thể định hình AI

- Yann LeCun, từ những năm 1980, đã tin tưởng vào sức mạnh của mạng nơ-ron, thiết kế mạng nơ-ron đầu tiên có khả năng nhận diện số viết tay với độ chính xác cao.
- LeCun, cùng với Geoffrey Hinton và Yoshua Bengio, được mệnh danh là "Ba Ông Bố Đỡ Đầu của AI", đã nhận Giải Turing vào năm 2018 từ Hiệp hội Máy tính ACM vì những đột phá về khái niệm và kỹ thuật đã làm cho mạng nơ-ron sâu trở thành một thành phần quan trọng trong tính toán.
- Hiện tại, LeCun là giáo sư tại Đại học New York và là chủ nhiệm khoa học AI tại Meta, nơi đang tiên phong trong nghiên cứu AI. Mark Zuckerberg, CEO của Meta, đã công bố mục tiêu mới của công ty là tạo ra "trí tuệ nhân tạo tổng quát".
- LeCun là một nhân vật gây tranh cãi trong lĩnh vực AI, không ngần ngại bày tỏ quan điểm trên Twitter và công khai. Ông đã dự đoán rằng AI sẽ mở ra "một kỷ nguyên phục hưng mới cho nhân loại" và bác bỏ ý kiến cho rằng AI đặt ra rủi ro tồn vong cho loài người là "vô lý".
- LeCun cũng là một người ủng hộ mạnh mẽ cho nghiên cứu mở, dưới sự lãnh đạo tinh thần của ông, bộ phận AI của Meta đã mở mã nguồn cho các mô hình mạnh mẽ nhất của mình, gần đây nhất là Llama-2. Chiến lược này đặt Meta vào một vị trí khác biệt so với các đối thủ chính (bao gồm Google DeepMind, OpenAI được Microsoft hỗ trợ, và Anthropic được Amazon hỗ trợ) những người từ chối công bố trọng số hoặc chi tiết nội bộ của mạng nơ-ron của họ vì lý do kinh doanh và mối quan ngại về an toàn.
- LeCun coi việc tiếp cận mở của Meta không chỉ là một chiến lược kinh doanh thông minh mà còn là một nhu cầu đạo đức. Ông nhấn mạnh tầm quan trọng của việc đóng góp vào một nền tảng mở rộng lớn, vì lý do đa dạng văn hóa, dân chủ, đa dạng. LeCun tin rằng tương lai phải là nguồn mở, không chỉ vì lý do đa dạng văn hóa mà còn vì dân chủ và đa dạng.

📌 Yann LeCun, với niềm tin sâu sắc vào sức mạnh của mạng nơ-ron từ những năm 1980, đã góp phần quan trọng vào sự phát triển của AI thông qua việc thiết kế mạng nơ-ron đầu tiên có khả năng nhận diện số viết tay. Nhận Giải Turing vào năm 2018 cùng với Geoffrey Hinton và Yoshua Bengio, LeCun hiện là một nhân vật quan trọng tại Meta, nơi ông và đội ngũ của mình đang hướng tới mục tiêu tạo ra trí tuệ nhân tạo tổng quát. Với quan điểm mạnh mẽ về nghiên cứu mở và sự phản đối đối với quan điểm cho rằng AI là mối đe dọa tồn vong, LeCun đã trở thành một nhân vật gây tranh cãi nhưng cũng rất được ngưỡng mộ trong cộng đồng AI. Sự lãnh đạo của ông tại Meta, đặc biệt qua việc mở mã nguồn cho các mô hình AI mạnh mẽ như Llama-2, không chỉ thể hiện chiến lược kinh doanh mà còn phản ánh một quan điểm đạo đức về tầm quan trọng của việc chia sẻ kiến thức và công nghệ mở rộng, hướng tới một tương lai đa dạng và dân chủ hơn trong lĩnh vực AI.

Không có file đính kèm.

Nguồn tham khảo

144

AI mở-nguồn mở AI pháp lý-quản trị-chủ quyền 2024-02-09 10:22:35

AI nguồn mở tốt cho chúng ta Nhưng xu hướng quản lý hiện tại có nguy cơ làm mất đi tính minh bạch và cạnh tranh trong AI

- Tháng trước, một nhà bình luận đã đưa ra quan điểm rằng "AI nguồn mở đặc biệt nguy hiểm", phản ánh lời kêu gọi đăng ký và cấp phép cho các mô hình AI.
- Cuộc tranh luận này đang nổi lên trong những nỗ lực gần đây để quản lý AI. Đầu tiên, Liên minh châu Âu đã hoàn thiện AI Act của mình để quản lý việc phát triển và triển khai các hệ thống AI.
- Một trong những điều khoản gây tranh cãi nhất là liệu có nên áp dụng các quy tắc này cho các mô hình "miễn phí và nguồn mở" hay không.
- Thứ hai, theo lệnh hành pháp của Tổng thống Biden về AI, chính phủ Hoa Kỳ đã bắt đầu yêu cầu các nhà phát triển của một số mô hình AI báo cáo, và sẽ sớm khởi xướng một cuộc điều tra công cộng về việc quản lý các mô hình AI "rộng rãi".
- Dù chính phủ chúng ta lựa chọn quản lý AI như thế nào, chúng ta cần thúc đẩy một hệ sinh thái AI đa dạng: từ các công ty lớn xây dựng siêu trí tuệ sở hữu đến những người thích tinker hàng ngày thử nghiệm với công nghệ mở.
- Các mô hình mở là nền tảng cho sự đổi mới từ cội rễ trong AI.

📌 Trong bối cảnh cuộc tranh luận về việc quản lý AI đang trở nên gay gắt, bài viết trên IEEE Spectrum đã thảo luận về việc liệu AI nguồn mở có tốt cho chúng ta hay không. Một số điểm quan trọng được đề cập bao gồm việc Liên minh châu Âu đã hoàn thiện AI Act của mình để quản lý việc phát triển và triển khai các hệ thống AI, và chính phủ Hoa Kỳ đã bắt đầu yêu cầu các nhà phát triển của một số mô hình AI báo cáo. Dù chính phủ chúng ta lựa chọn quản lý AI như thế nào, chúng ta cần thúc đẩy một hệ sinh thái AI đa dạng, từ các công ty lớn xây dựng siêu trí tuệ sở hữu đến những người thích tinker hàng ngày thử nghiệm với công nghệ mở.

Citations:
[1] https://spectrum.ieee.org/open-source-ai-good

Không có file đính kèm.

Nguồn tham khảo

155

AI tools AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-02-09 10:13:42

Apple phát hành trình chỉnh sửa hình ảnh AI mã nguồn mở MGIE

- Apple đã phát hành MGIE, một trình chỉnh sửa ảnh AI nguồn mở, hợp tác phát triển cùng các nhà nghiên cứu từ Đại học California, nhằm cung cấp một công cụ chỉnh sửa ảnh tiên tiến nhưng thân thiện với người dùng.
- MGIE sử dụng các mô hình ngôn ngữ lớn đa phương tiện (MLLMs) để chính xác giải thích các yêu cầu từ người dùng, cho phép thực hiện nhiều loại chỉnh sửa từ cải thiện ảnh tổng thể như điều chỉnh độ sáng, tương phản, đến các chỉnh sửa cục bộ và thay đổi kiểu Photoshop như cắt, thay đổi kích thước và thêm bộ lọc.
- MGIE không chỉ hỗ trợ chỉnh sửa ảnh cơ bản mà còn có khả năng hiểu và thực hiện các lệnh phức tạp như làm cho pizza trông khỏe mạnh hơn hoặc thay đổi điểm nhấn trong ảnh, nhờ vào khả năng suy luận thông thường và kỹ năng thao tác pixel cấp độ cao.
- Công cụ này đặc biệt nổi bật với khả năng suy luận thông thường, cho phép nó thực hiện các nhiệm vụ như thêm topping rau củ vào pizza để làm cho nó trông khỏe mạnh hơn hoặc tăng cường độ tương phản của ảnh để mô phỏng thêm ánh sáng.

📌 Apple đã phát hành MGIE, một trình chỉnh sửa ảnh AI nguồn mở, hợp tác phát triển cùng các nhà nghiên cứu từ Đại học California. MGIE đánh dấu một bước tiến quan trọng trong việc kết hợp giữa công nghệ AI và công cụ sáng tạo, mở ra những khả năng mới trong chỉnh sửa ảnh. Với việc sử dụng MLLMs để giải thích chính xác các yêu cầu từ người dùng, MGIE cho phép thực hiện từ các chỉnh sửa ảnh tổng thể như điều chỉnh độ sáng, tương phản đến các chỉnh sửa cụ thể và phức tạp như thêm bộ lọc, cắt, thay đổi kích thước. Khả năng suy luận thông thường và thao tác pixel cấp độ cao của MGIE mở ra cánh cửa cho việc chỉnh sửa ảnh sáng tạo và cá nhân hóa hơn, đẩy mạnh giới hạn của những gì có thể đạt được với công nghệ AI trong lĩnh vực này.

Citations:
[1] https://www.geeky-gadgets.com/apple-mgie-ai-image-editor/

Không có file đính kèm.

Nguồn tham khảo

140

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-02-08 10:03:38

Cuộc đua video tạo sinh của Trung Quốc nóng lên

- Video tạo sinh được kỳ vọng trở thành điểm nhấn tiếp theo trong cuộc đua AI sau sự bùng nổ của văn bản và hình ảnh tạo sinh.
- Các công ty khởi nghiệp và công ty công nghệ lớn ở Trung Quốc đang đầu tư mạnh mẽ vào lĩnh vực này, bao gồm Tencent, ByteDance (công ty mẹ của TikTok), Baidu và Alibaba.
- Cả ByteDance với MagicVideo và Baidu với UniVG đã đăng demo trên GitHub, tuy nhiên, hiện tại chưa có sản phẩm nào được công bố rộng rãi cho công chúng.
- Alibaba đã làm cho mô hình tạo video của mình, VGen, trở thành nguồn mở, một chiến lược ngày càng phổ biến giữa các công ty công nghệ Trung Quốc nhằm mục đích tiếp cận cộng đồng nhà phát triển toàn cầu.

📌 Cuộc đua phát triển video tạo sinh ở Trung Quốc đang trở nên sôi động với sự tham gia của các tên tuổi lớn trong ngành công nghệ như Tencent, ByteDance, Baidu và Alibaba. Mỗi công ty đều đã phát triển và giới thiệu mô hình phân tán video của riêng mình, với ByteDance và Baidu chia sẻ demo trên GitHub và Alibaba quyết định mở nguồn cho mô hình VGen của mình. Điều này không chỉ cho thấy sự cạnh tranh khốc liệt trong lĩnh vực AI tạo sinh tại Trung Quốc mà còn phản ánh xu hướng mở cửa và chia sẻ công nghệ với cộng đồng toàn cầu. Sự đầu tư mạnh mẽ vào video tạo sinh hứa hẹn sẽ mở ra những cơ hội mới và thúc đẩy sự phát triển của công nghệ AI tạo sinh trên toàn thế giới.

Citations:
[1] https://techcrunch.com/2024/02/05/chinas-generative-video-race-heats-up/

Không có file đính kèm.

Nguồn tham khảo

146

AI mở-nguồn mở 2024-02-08 09:23:27

'Smaug-72B': Vua mới của AI nguồn mở

- Smaug-72B, một mô hình AI nguồn mở mới, đã đạt được điểm trung bình 80 trên bảng xếp hạng Hugging Face Open LLM, một thành tựu đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên và AI nguồn mở[1].
- Sự ra đời của Smaug-72B có thể thay đổi cách tiến trình AI diễn ra, khai thác sự sáng tạo của nhiều người hơn so với chỉ một số ít công ty giàu có[1].
- Sự xuất hiện của Smaug-72B và Qwen 1.5 đã tạo ra nhiều sự hào hứng và tranh luận trong cộng đồng AI và hơn thế nữa[1].
- Nhiều chuyên gia và người ảnh hưởng đã khen ngợi thành tựu của Abacus AI và Qwen và bày tỏ sự ngưỡng mộ của họ đối với đóng góp của họ cho AI nguồn mở[1].
- Abacus AI và Qwen cũng đã gợi ý về các dự án và mục tiêu tương lai của họ, bao gồm việc tạo ra nhiều mô hình nguồn mở hơn và áp dụng chúng vào các lĩnh vực và ứng dụng khác nhau[1].
- Smaug-72B và Qwen 1.5 chỉ là những ví dụ mới nhất về sự tiến hóa nhanh chóng và đáng kể của AI nguồn mở trong năm nay[1].

📌 Smaug-72B, một mô hình AI nguồn mở mới, đã đạt được điểm trung bình 80 trên bảng xếp hạng Hugging Face Open LLM, một thành tựu đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên và AI nguồn mở. Sự xuất hiện của Smaug-72B và Qwen 1.5 đã tạo ra nhiều sự hào hứng và tranh luận trong cộng đồng AI và hơn thế nữa. Nhiều chuyên gia và người ảnh hưởng đã khen ngợi thành tựu của Abacus AI và Qwen và bày tỏ sự ngưỡng mộ của họ đối với đóng góp của họ cho AI nguồn mở[1].

Citations:
[1] https://venturebeat.com/ai/meet-smaug-72b-the-new-king-of-open-source-ai/

Không có file đính kèm.

Nguồn tham khảo

124

AI mở-nguồn mở 2024-02-05 16:20:55

Giới thiệu Qwen1.5

- Qwen1.5 giờ đây có thể được sử dụng cho các ứng dụng như RAG, tool use, agent.
- Người dùng có thể xây dựng API tương thích với OpenAI-API hoặc chạy các mô hình cục bộ cho các framework nổi tiếng như LlamaIndex, LangChain, CrewAI.
- Sự khác biệt lớn nhất của Qwen1.5 là việc tích hợp vào Hugging Face transformers.
- Từ phiên bản 4.37.0, người dùng có thể sử dụng Qwen1.5 mà không cần mã nguồn tùy chỉnh.
- Điều này có nghĩa là người dùng có thể tải mô hình theo cách mới được cung cấp.

📌 Qwen1.5 đã được tích hợp vào Hugging Face transformers, cho phép người dùng sử dụng mô hình này mà không cần mã nguồn tùy chỉnh từ phiên bản 4.37.0. Điều này mở ra khả năng xây dựng API tương thích với OpenAI-API hoặc chạy các mô hình cục bộ cho các framework nổi tiếng, đáp ứng nhu cầu đa dạng của người dùng trong việc phát triển các ứng dụng như RAG, tool use, agent.

1. Meta description: Qwen1.5 giờ đây có thể được tích hợp vào Hugging Face transformers, cho phép người dùng sử dụng mô hình mà không cần mã nguồn tùy chỉnh từ phiên bản 4.37.0.
2. Meta keywords: Qwen1.5, Hugging Face transformers, OpenAI-API, LlamaIndex, LangChain, CrewAI, RAG, tool use, agent, phiên bản 4.37.0.
3. SEO title: Qwen1.5 Tích Hợp vào Hugging Face Transformers: Sử Dụng Mô Hình Mà Không Cần Mã Người Dùng Tùy Chỉnh.

Citations:
[1] https://qwenlm.github.io/blog/qwen1.5/

Không có file đính kèm.

Nguồn tham khảo

138

AI mở-nguồn mở 2024-02-03 21:19:04

Hugging Face ra mắt trợ lý AI nguồn mở để cạnh tranh với GPT tùy chỉnh của OpenAI

Hugging Face ra mắt Hugging Chat Assistants, công cụ tạo trợ lý AI nguồn mở để cạnh tranh với GPT tùy chỉnh của OpenAI.
Hugging Chat Assistants miễn phí và cho phép người dùng tùy chỉnh trợ lý AI của riêng họ với các khả năng cụ thể.
Người dùng có thể chọn từ nhiều mô hình ngôn ngữ lớn (LLM) nguồn mở khác nhau để cung cấp năng lượng cho trợ lý AI của họ.
Hugging Face cũng đã tạo ra một kho lưu trữ trung tâm các Trợ lý trò chuyện Hugging do bên thứ ba tùy chỉnh mà người dùng có thể lựa chọn.

📌 Hugging Chat Assistants là một công cụ mạnh mẽ và dễ sử dụng cho phép người dùng tạo các trợ lý AI tùy chỉnh miễn phí, sử dụng nhiều mô hình ngôn ngữ lớn nguồn mở khác nhau. Hugging Chat Assistants cũng là một bước tiến quan trọng đối với cộng đồng AI nguồn mở. Bằng cách cung cấp một nền tảng để người dùng tạo và chia sẻ các trợ lý AI tùy chỉnh cạnh tranh với GPT tùy chỉnh của OpenAI, Hugging Face đang giúp thúc đẩy sự phát triển của AI và làm cho AI dễ tiếp cận hơn với mọi người.

Không có file đính kèm.

Nguồn tham khảo

170

AI mở-nguồn mở 2024-02-03 13:12:47

Tại sao các mô hình AI tạo sinh nguồn mở vẫn chậm một bước so với GPT-4

Các mô hình AI nguồn mở như Meta's Llama 2 không đạt hiệu suất cao như GPT-4 của OpenAI trong các kiểm tra chuyên ngành.
Một nghiên cứu từ Pepperdine University, UCLA và UC Riverside đã sử dụng Llama 2 để trả lời câu hỏi về nephrology nhưng không đạt kết quả khả quan.
Trong khi đó, GPT-4 đạt tỷ lệ đúng 73,3% trong các bài kiểm tra tương tự, rất gần với ngưỡng đậu là 75%.
Các mô hình nguồn mở khác như Vicuña và Falcon cũng không thể hiệu quả hơn nhiều so với cách đoán mò.
Sự chênh lệch này là minh chứng rõ ràng về khoảng cách chất lượng giữa các mô hình AI nguồn mở so với mô hình thương mại, đặc biệt trong lĩnh vực đòi hỏi kiến thức chuyên sâu.

📌 GPT-4 đã cho thấy khả năng tiếp cận ngưỡng hiệu suất của con người với tỷ lệ đúng 73,3% trong các bài kiểm tra chuyên ngành, trong khi các mô hình AI nguồn mở như Llama 2 vẫn còn nhiều hạn chế, không hiệu quả hơn việc đoán mò.

Không có file đính kèm.

Nguồn tham khảo

163

AI mở-nguồn mở 2024-02-03 12:34:12

Có nên biến các mô hình AI mạnh mẽ nhất của mình thành nguồn mở cho tất cả mọi người không?

Sử dụng hệ thống AI hiện đại, từ tạo hình ảnh như DALL-E hay Midjourney đến mô hình ngôn ngữ như Llama 2 hay ChatGPT, bạn sẽ nhận thấy các biện pháp bảo vệ được tích hợp để ngăn chặn việc sử dụng không được chấp thuận bởi người tạo mô hình.
Các công cụ tạo hình ảnh lớn sẽ ngăn bạn tạo nội dung khiêu dâm hoặc vi phạm bản quyền. Mô hình ngôn ngữ từ chối giúp giải CAPTCHA, viết virus máy tính, hoặc hỗ trợ âm mưu khủng bố.
Một ngành công nghiệp nhỏ đã phát triển với lời khuyên về cách lừa AI bỏ qua các biện pháp bảo vệ. Điều này đã dẫn đến cuộc đua vũ trang giữa các nhà phát triển cố gắng đóng các lỗ hổng ngay khi chúng được phát hiện.
Một cách dễ dàng để vượt qua tất cả các biện pháp bảo vệ này là lấy một mô hình có trọng số được công bố công khai, như Llama 2, và tự đào tạo nó để không phản đối nội dung có hại hoặc bất hợp pháp.
Tổ chức phi lợi nhuận Palisade Research đã thử nghiệm xem việc này khó đến mức nào như một phần của nỗ lực hiểu rõ hơn về rủi ro từ các hệ thống AI. Họ phát hiện ra rằng việc này không hề khó khăn.
Việc mở cửa nghiên cứu AI đã là một trụ cột của tiến bộ và hợp tác trong cộng đồng lập trình từ khi internet ra đời. Phương pháp mã nguồn mở dân chủ hóa AI, hạn chế quyền lực của các chính phủ kiểm duyệt, và cho phép nghiên cứu quan trọng tiếp tục mà không bị can thiệp của doanh nghiệp.
Tuy nhiên, việc mở cửa cũng khiến việc ngăn chặn sử dụng mô hình AI cho việc tạo deepfake khiêu dâm, quấy rối mục tiêu, giả mạo, khủng bố và nhiều thứ khác bạn muốn ngăn chặn trở nên hoàn toàn không thể.
Các nhà nghiên cứu AI đang phân vân về cách xử lý vấn đề này - nhưng tất cả đều đồng ý rằng đây là một cuộc trò chuyện sẽ ngày càng khó tránh khỏi khi các mô hình AI trở nên mạnh mẽ hơn.

📌Việc mở cửa nghiên cứu AI đã là một trụ cột của tiến bộ và hợp tác trong cộng đồng lập trình từ khi internet ra đời. Mã nguồn mở dân chủ hóa AI, hạn chế quyền lực của các chính phủ kiểm duyệt, và cho phép nghiên cứu quan trọng tiếp tục mà không bị can thiệp của doanh nghiệp. Tuy nhiên, nguồn mở cũng khiến việc ngăn chặn sử dụng mô hình AI cho việc tạo deepfake khiêu dâm, quấy rối mục tiêu, giả mạo, khủng bố và nhiều thứ khác bạn muốn ngăn chặn trở nên hoàn toàn không thể. Các nhà nghiên cứu AI đang phân vân về cách xử lý vấn đề này

Không có file đính kèm.

Nguồn tham khảo

130

AI mở-nguồn mở 2024-02-01 16:54:37

LLM nguồn mở 'thực sự' đầu tiên từ AI2 để thúc đẩy 'sự thay đổi quan trọng' trong phát triển AI

Viện Nghiên cứu AI Allen (AI2), do đồng sáng lập Microsoft, Paul Allen, thành lập, đã giới thiệu OLMo, mô hình ngôn ngữ lớn và framework mã nguồn mở đầu tiên, như một lựa chọn thay thế cho các mô hình hiện hành hạn chế và đóng, góp phần vào sự chuyển biến quan trọng trong phát triển AI.
OLMo không chỉ bao gồm mã mô hình và trọng số mà còn cung cấp mã đào tạo, dữ liệu đào tạo và các bộ công cụ đánh giá, phát hành dưới giấy phép được chấp nhận bởi sáng kiến mã nguồn mở (OSI) và tất cả mã, trọng số, và checkpoint trung gian được phát hành dưới Giấy phép Apache 2.0.
Sự ra đời của OLMo diễn ra trong bối cảnh AI mã nguồn mở/khoa học mở đang đạt được tiến bộ đáng kể so với các LLM độc quyền như GPT-4 của OpenAI và Claude của Anthropic, nhưng vẫn đối mặt với chỉ trích từ một số nhà nghiên cứu và nhà hoạch định chính sách.
Framework OLMo cung cấp một bộ công cụ phát triển AI "hoàn toàn mở" cho công chúng, bao gồm dữ liệu đào tạo đầy đủ, mã đào tạo, trọng số mô hình và đánh giá, nhằm mục đích cho phép các nhà nghiên cứu nghiên cứu khoa học của LLM một cách đầy đủ và khoa học.
Cộng đồng AI mã nguồn mở hoan nghênh sự ra mắt của OLMo, với Jonathan Frankle từ MosaicML và Databricks mô tả sự kiện này là "Bước nhảy vọt lớn cho khoa học mở" và Yann LeCun từ Meta nhấn mạnh tầm quan trọng của mô hình nền tảng mở trong việc thúc đẩy đổi mới và phát triển trong lĩnh vực AI tạo sinh.

📌 Sự giới thiệu OLMo bởi Viện Nghiên cứu AI Allen (AI2) là một bước ngoặt quan trọng trong lĩnh vực AI, mở ra hướng đi mới cho sự phát triển AI mã nguồn mở, tạo điều kiện cho việc nghiên cứu và phát triển AI một cách minh bạch và toàn diện. Với việc cung cấp không chỉ mã mô hình và trọng số mà còn bao gồm mã đào tạo, dữ liệu đào tạo và bộ công cụ đánh giá, đánh dấu sự khác biệt so với các mô hình đóng như GPT-4 của OpenAI và Claude của Anthropic. OLMo mở ra cơ hội cho các nhà nghiên cứu nghiên cứu khoa học của LLM một cách đầy đủ và khoa học, hướng tới mục tiêu tạo ra thế hệ AI tiếp theo an toàn và đáng tin cậy.

Không có file đính kèm.

Nguồn tham khảo

167

AI models AI mở-nguồn mở 2024-02-01 09:54:53

Sea-Lion: Sáng kiến AI đa ngôn ngữ của Singapore dành cho ASEAN

AI Singapore (AISG) nhấn mạnh tầm quan trọng của việc phát triển các mô hình ngôn ngữ lớn (LLMs) địa phương để giảm thiểu định kiến từ dữ liệu đào tạo và bối cảnh văn hóa của phương Tây.
Mô hình Sea-Lion của AISG, tập trung vào ngôn ngữ và bối cảnh Đông Nam Á, đã thể hiện khả năng xử lý các quan điểm tinh tế về các chủ đề nhạy cảm, bao gồm cả thành tựu và thách thức của cố Tổng thống Indonesia Suharto.
Singapore đã cam kết 70 triệu đô la Singapore (khoảng 52 triệu đô la Mỹ) để phát triển Sea-Lion, nhưng một số người trong ngành đặt câu hỏi về tính khả thi và thời điểm của dự án so với sự tiến bộ nhanh chóng của OpenAI và các công ty công nghệ lớn.
Sea-Lion, được quảng cáo là LLM mã nguồn mở đầu tiên tập trung vào ngôn ngữ và bối cảnh Đông Nam Á, đã được đào tạo trên 1 nghìn tỷ token và có hai phiên bản với 3 tỷ và 7 tỷ tham số.
AISG tiết lộ rằng 73% LLMs hiện tại có nguồn gốc từ Mỹ và Trung Quốc, với 95% mô hình được đào tạo chủ yếu bằng tiếng Anh hoặc kết hợp tiếng Anh với một trong các ngôn ngữ Trung Quốc, Ả Rập, hoặc Nhật Bản.
Đối với việc xây dựng Sea-Lion, AISG phải vượt qua thách thức là thiếu dữ liệu công khai chất lượng cao bằng ngôn ngữ Đông Nam Á và chỉ sử dụng dữ liệu không vi phạm bản quyền.
Sea-Lion đã được kiểm tra với các câu hỏi không chỉ về Suharto mà còn về các chủ đề khác, cho thấy khả năng vượt trội so với Llama 2 của Meta, SeaLLM của Alibaba, và GPT-4 của OpenAI về tốc độ, độ chính xác và ngắn gọn.
AISG đã đề xuất một tiêu chuẩn mới, BHASA, để đánh giá hiệu suất của LLMs trong ngôn ngữ Đông Nam Á, với Sea-Lion được xếp hạng chỉ sau GPT-4.

📌 Mô hình ngôn ngữ lớn Sea-Lion của Singapore tập trung vào ngôn ngữ và bối cảnh Đông Nam Á, đã thể hiện khả năng xử lý các quan điểm tinh tế về các chủ đề nhạy cảm, bao gồm cả thành tựu và thách thức của cố Tổng thống Indonesia Suharto. Sea-Lion, với sự đầu tư 52 triệu đô la Mỹ từ chính phủ Singapore đã được kiểm tra với các câu hỏi không chỉ về Suharto mà còn về các chủ đề khác, cho thấy khả năng vượt trội so với Llama 2 của Meta, SeaLLM của Alibaba, và GPT-4 của OpenAI về tốc độ, độ chính xác và ngắn gọn. AISG đã đề xuất một tiêu chuẩn mới, BHASA, để đánh giá hiệu suất của LLMs trong ngôn ngữ Đông Nam Á, với Sea-Lion được xếp hạng chỉ sau GPT-4.

Không có file đính kèm.

Nguồn tham khảo

206

AI prompts AI mở-nguồn mở 2024-01-31 21:24:51

Prompt Engineering is Different for Open Source LLMs

Meta AI giới thiệu 'Prompt Engineering with Llama 2', nguồn tài nguyên mới dành cho cộng đồng mã nguồn mở, tập trung vào các phương pháp tốt nhất cho kỹ thuật xử lý lệnh (prompt engineering).
DeepLearning.AI của Andrew Ng cũng ra mắt khóa học về kỹ thuật xử lý lệnh cho các Mô Hình Ngôn Ngữ Lớn mã nguồn mở.
Các công ty như IBM, Amazon, Google, và Microsoft cung cấp khóa học tương tự cho mô hình mã nguồn mở.
Xu hướng tuyển dụng chuyên gia xử lý lệnh tăng cao do nhu cầu sử dụng ChatGPT của OpenAI trong doanh nghiệp.
Sharon Zhou phân tích sự khác biệt trong kỹ thuật xử lý lệnh giữa mô hình AI mã nguồn mở và mã nguồn đóng, nhấn mạnh rằng cách đóng gói mô hình mã nguồn mở khác với mô hình mã nguồn đóng. Điều này ảnh hưởng đến API và cuối cùng là cơ chế xử lý lệnh. Zhou cho rằng việc chuyển đổi giữa các mô hình LLM khác nhau đòi hỏi việc điều chỉnh lệnh một cách cẩn thận.
Zhou nhấn mạnh sự đơn giản của kỹ thuật xử lý lệnh, chỉ ra rằng đó là kỹ năng cơ bản không cần framework phức tạp.

📌 Meta AI giới thiệu 'Prompt Engineering with Llama 2', nguồn tài nguyên mới dành cho cộng đồng mã nguồn mở, tập trung vào các phương pháp tốt nhất cho prompt engineering. Sự phát triển của prompt engineering trong AI, đặc biệt là với các mô hình mã nguồn mở như LLaMA của Meta, cho thấy sự cần thiết của việc hiểu biết và thích nghi với các phương pháp tối ưu hóa hiệu suất của các mô hình AI.

Không có file đính kèm.

Nguồn tham khảo

233

AI viễn thông AI mở-nguồn mở 2024-01-31 03:45:27

Tầm quan trọng và đề xuất chiến lược của mô hình ngôn ngữ lớn Xingchen AI nguồn mở hoàn toàn của China Telecom

Bài viết trên Sina Finance đề cập đến việc China Telecom's Xingchen AI mở mã nguồn mở cho mô hình AI lớn của mình.
Trong năm 2023, sự phát triển của ngành công nghiệp mô hình lớn ở Trung Quốc được thúc đẩy mạnh mẽ bởi sự nổi tiếng của ChatGPT và việc Meta mở mã nguồn mở mô hình LLaMA.
Đến nay, đã có 15 mô hình AI lớn ở Trung Quốc được công bố mã nguồn mở, chủ yếu là mô hình ngôn ngữ lớn và mô hình đa phương tiện.
Các mô hình mở mã nguồn mở ở Trung Quốc thường có quy mô tham số từ 60-70 tỷ, với mô hình lớn nhất là "Yuan 2.0" của Inspur Information với 102 tỷ tham số.
Việc mở mã nguồn mở những mô hình lớn này có tác động tích cực đến việc phát triển cơ sở hạ tầng, đổi mới công nghệ, và xây dựng hệ sinh thái mở.
Xingchen AI của China Telecom mở mã nguồn mở với mục tiêu thúc đẩy ứng dụng trong các tình huống cụ thể và bảo vệ quyền riêng tư dữ liệu.
Xingchen AI định hướng phát triển dựa trên việc mở mã nguồn mở, cải thiện khả năng của mô hình, và xây dựng hệ thống hỗ trợ mở mã nguồn mở.

📌 Việc China Telecom's Xingchen AI mở mã nguồn mở cho mô hình AI lớn của mình đánh dấu một bước tiến quan trọng trong ngành công nghiệp AI ở Trung Quốc. Sự kiện này không chỉ thúc đẩy đổi mới và phát triển công nghệ mà còn mở ra cơ hội mới cho các doanh nghiệp và nhà phát triển trong việc tùy chỉnh và bảo vệ dữ liệu. Với hơn 15 mô hình AI lớn đã được mở mã nguồn mở, Trung Quốc đang chứng tỏ vị thế của mình trong cuộc đua phát triển AI toàn cầu.

Không có file đính kèm.

Nguồn tham khảo

152

AI nhỏ AI mở-nguồn mở 2024-01-27 20:18:01

Orion-14B: Mô hình ngôn ngữ lớn đa ngôn ngữ nguồn mở mới được đào tạo trên Token 2,5T bao gồm tiếng Trung, tiếng Anh, tiếng Nhật và tiếng Hàn

Orion-14B là mô hình ngôn ngữ lớn đa ngôn ngữ nguồn mở mới được huấn luyện trên 2.5 nghìn tỷ tokens, bao gồm tiếng Trung, Anh, Nhật và Hàn.
Mô hình cơ sở của Orion-14B có 14 tỷ tham số và dữ liệu huấn luyện khổng lồ 2.5 ngàn tỷ tokens, với chiều dài ngữ cảnh lên đến 200.000 tokens.
Orion-14B bao gồm nhiều mô hình với đặc điểm và ứng dụng riêng biệt. Mô hình Orion-14B-Chat-RAG được tinh chỉnh trên tập dữ liệu tăng cường truy xuất, còn Orion-14B-Chat-Plugin được thiết kế cho các tình huống liên quan đến agent.
Phiên bản long-chat của Orion-14B có khả năng xử lý văn bản dài lên đến 320.000 tokens. Phiên bản quantized của Orion-14B giảm kích thước mô hình 70%, tăng tốc độ suy luận lên 30% và chỉ giảm hiệu suất dưới 1%.
Dữ liệu huấn luyện bao gồm văn bản đa ngôn ngữ, tập trung chủ yếu vào tiếng Anh và tiếng Trung, chiếm 90% toàn bộ dữ liệu. Nội dung tiếng Nhật và tiếng Hàn chiếm hơn 5%.
Mặc dù đối mặt với nhiều thách thức, nhóm nghiên cứu đã phát triển Orion-14B thành công, với hiệu suất vượt trội so với các mô hình nguồn mở khác.

📌 Orion-14B đánh dấu một cột mốc quan trọng trong lĩnh vực nghiên cứu AI, đặc biệt là trong việc xây dựng mô hình ngôn ngữ đa ngôn ngữ với khả năng xử lý dữ liệu đa dạng. Sự kết hợp của dữ liệu huấn luyện khổng lồ 2,5 ngàn tỷ tokens và chiều dài ngữ cảnh 200.000 tokens cùng các phiên bản tối ưu hóa cho các tác vụ cụ thể như Chat RAG và Chat Plugin, cùng với phiên bản long-chat và quantized cho thấy Orion-14B không chỉ mạnh mẽ về quy mô mà còn linh hoạt và hiệu quả. Với việc chiếm ưu thế trong các bài kiểm tra tiếng Nhật và tiếng Hàn, mô hình này mở ra hướng tiếp cận mới cho NLP đa ngôn ngữ và có tiềm năng ứng dụng rộng rãi trong ngành công nghiệp AI.

Không có file đính kèm.

Nguồn tham khảo

160

AI nhỏ AI tương lai AI mở-nguồn mở 2024-01-26 09:48:30

Xu hướng công nghệ năm 2024: Các mô hình AI tạo sinh sẽ nhỏ hơn, hiệu quả chi phí hơn

Xu hướng công nghệ của năm 2024 dự báo sẽ có sự chuyển dịch của AI tạo sinh từ các mô hình ngôn ngữ lớn (LLMs) sang các mô hình nhỏ hơn, tiết kiệm chi phí và nguồn mở.
AI tạo sinh sẽ trở nên linh hoạt hơn, có thể hoạt động trên phần cứng có khả năng xử lý hạn chế như laptop hay smartphone, theo Capgemini.
Sự kết hợp giữa mô hình nhỏ hơn và đồ thị kiến thức sẽ cải thiện độ chính xác, theo Robert Engels từ phòng thí nghiệm AI tạo sinh của Capgemini.
AI tạo sinh sẽ giúp doanh nghiệp phần mềm tăng doanh thu thêm 10 tỷ USD vào cuối năm 2024, nhờ việc tích hợp AI vào sản phẩm.
AI cũng được dự đoán sẽ hỗ trợ lập trình viên học hỏi kỹ năng mới, nâng cao hiệu suất và cải thiện quyết định.
Tuổi thọ trung bình của iPhone dự kiến sẽ đạt 8 năm, và hơn một nửa trong số 1,3 tỷ iPhone đang được sử dụng sẽ là thiết bị đã qua sử dụng.
Sự xuất hiện của các loại vệ tinh mới sẽ cung cấp dịch vụ cho thiết bị IoT và người dùng smartphone, với dự đoán rằng 200 triệu smartphone có khả năng kết nối với dịch vụ vệ tinh sẽ được bán ra trong năm 2024.
Các hệ thống vệ tinh sẽ trở nên phổ biến sau khi đạt được số lượng vệ tinh tối thiểu cần thiết để hoạt động hiệu quả trên quỹ đạo.

📌 Năm 2024, ngành công nghệ sẽ chứng kiến sự thay đổi lớn trong lĩnh vực AI tạo sinh với sự chuyển hướng sang các mô hình nhỏ hơn, nguồn mở, dễ tiếp cận và tiết kiệm chi phí. Doanh nghiệp phần mềm dự kiến sẽ thấy sự gia tăng doanh thu khoảng 10 tỷ USD từ việc tích hợp AI, trong khi người dùng iPhone có thể sẽ sử dụng thiết bị của họ lâu hơn, trung bình 8 năm. Sự phát triển của các hệ thống vệ tinh sẽ mang lại lợi ích cho người dùng IoT và smartphone, với dự đoán sự tăng trưởng trong việc bán ra smartphone có khả năng kết nối với vệ tinh lên đến 200 triệu thiết bị vào năm 2024.

Không có file đính kèm.

Nguồn tham khảo

210

AI mở-nguồn mở 2024-01-25 10:33:34

Fireworks AI Mã nguồn mở FireLLaVA

Fireworks AI công bố mã nguồn mở FireLLaVA, phiên bản có thể sử dụng thương mại của LLaVA Model, chỉ sử dụng các mô hình nguồn mở (OSS) cho việc tạo dữ liệu và đào tạo.
FireLLaVA là mô hình đa phương tiện (multimodal) đầu tiên được phát hành dưới Llama 2 Community Licence, cho phép sử dụng thương mại.
Mô hình có khả năng hiểu cả văn bản và nội dung hình ảnh, hứa hẹn sự linh hoạt hơn trong ứng dụng tạo chatbot và mô tả marketing dựa trên ảnh sản phẩm.
FireLLaVA vượt trội hơn mô hình LLaVA gốc trên 4 trong số 7 điểm chuẩn, sử dụng mô hình chỉ ngôn ngữ OSS CodeLlama 34B Instruct để tái tạo dữ liệu đào tạo.
Mô hình được phát triển để xử lý các ứng dụng thực tế như trả lời câu hỏi dựa trên hình ảnh và giải mã nguồn dữ liệu phức tạp, cải thiện độ chính xác và độ rộng của thông tin do AI cung cấp.
FireLLaVA cho phép các nhà phát triển tích hợp tính năng nhìn thông qua API hoàn thiện và chat hoàn thiện, tương thích với các mô hình Vision của OpenAI.

📌 Fireworks AI đã mở ra một chương mới cho AI đa phương tiện với việc công bố mã nguồn mở FireLLaVA, một bước tiến đáng kể trong việc tạo ra các mô hình ngôn ngữ-hình ảnh linh hoạt và có lợi nhuận. Với khả năng đánh bại mô hình LLaVA gốc trên một số điểm chuẩn và việc sử dụng OSS để tạo dữ liệu đào tạo, FireLLaVA không chỉ mở rộng khả năng của các ứng dụng AI mà còn tạo cơ hội cho việc tích hợp AI vào nhiều lĩnh vực thương mại.

Không có file đính kèm.

Nguồn tham khảo

140

AI mở-nguồn mở AI startup-M&A 2024-01-24 15:45:48

Công ty khởi nghiệp Trung Quốc này đang chiến thắng trong cuộc đua AI nguồn mở

Startup Trung Quốc 01.AI nổi bật trong cuộc đua AI nguồn mở với mô hình Yi-34B và phiên bản mới Yi-VL-34B có khả năng xử lý hình ảnh.
01.AI, được thành lập vào tháng 6 năm trước, đã huy động được 200 triệu USD từ Alibaba và được định giá hơn 1 tỷ USD.
Người sáng lập là Kai-Fu Lee, từng là nhà nghiên cứu AI tiên phong, lãnh đạo lab của Microsoft tại Bắc Kinh và sau đó là Google Trung Quốc.
Mục tiêu của 01.AI là tạo ra các ứng dụng "killer" đầu tiên dựa trên công nghệ AI, đặc biệt là trong lĩnh vực sản xuất, sáng tạo và mạng xã hội.
01.AI đã tạo được sự chú ý tại phương Tây khi mô hình ngôn ngữ nguồn mở của họ nhanh chóng được nhận xét cao trên bảng xếp hạng của Hugging Face và các tiêu chuẩn khác.

📌 01.AI, với sự dẫn dắt của Kai-Fu Lee, đang tạo nên bước đột phá trong cuộc đua AI nguồn mở, không chỉ qua việc phát triển mô hình Yi-34B, mà còn mở rộng sang mô hình multimodal mới. Việc thu hút đầu tư lớn và xây dựng cơ sở nhà phát triển trung thành qua việc chia sẻ công nghệ có thể sẽ giúp 01.AI dẫn đầu trong việc tạo ra các ứng dụng AI tiếp theo, với kỳ vọng tạo ra doanh thu đáng kể và tác động toàn cầu.

Không có file đính kèm.

Nguồn tham khảo

167

AI mở-nguồn mở 2024-01-24 15:35:33

Tại sao các tổ chức đang chuyển đổi từ OpenAI sang các mô hình nguồn mở được tinh chỉnh

Tổ chức đang chuyển từ OpenAI sang mô hình nguồn mở được tinh chỉnh vì hiệu quả và tránh phụ thuộc vào nhà cung cấp đồng thời bảo vệ tài sản trí tuệ.
Mô hình nguồn mở như Llama2 và Mistral giờ đây có hiệu năng ngang hoặc hơn các mô hình thương mại, với kích thước đáng kể nhỏ hơn.
Ba phần tư người trả lời khảo sát từ công ty không thoải mái khi sử dụng mô hình LLM thương mại trong sản xuất, lo ngại về sở hữu, quyền riêng tư và chi phí.
Các mô hình nguồn mở được tinh chỉnh giờ đây đạt được hiệu suất tương đương hoặc vượt trội so với các mô hình thương mại, giảm đáng kể chi phí và tăng tốc độ.
Các thách thức hiện tại bao gồm việc đơn giản hóa quá trình tinh chỉnh, thiết lập cơ sở hạ tầng sản xuất vững chắc và đảm bảo chất lượng, độ tin cậy, an toàn và đạo đức của các ứng dụng AI.

📌 Chuyển đổi từ OpenAI sang mô hình nguồn mở là bước tiếp theo cho các doanh nghiệp muốn duy trì quyền sở hữu thông tin và mô hình của mình, đảm bảo quyền riêng tư và tránh phụ thuộc vào nhà cung cấp.Trong kỷ nguyên AI tùy chỉnh, các mô hình chuyên biệt không chỉ cung cấp hiệu suất tối ưu mà còn giảm thiểu chi phí đáng kể. Các thách thức như quản lý quá trình tinh chỉnh, xây dựng cơ sở hạ tầng sản xuất mạnh mẽ và đảm bảo chất lượng, độ tin cậy, an toàn và đạo đức của AI vẫn còn, nhưng các nền tảng sáng tạo đang cung cấp giải pháp khai thác tiềm năng lớn của mô hình nguồn mở với hiệu suất tối ưu và kiểm soát tốt nhất.

Không có file đính kèm.

Nguồn tham khảo

119

AI mở-nguồn mở 2024-01-23 08:45:35

Microsoft đang sử dụng Llama, giảm sự phụ thuộc vào OpenAI

- Microsoft đang sử dụng Llama, giảm sự phụ thuộc vào OpenAI.
- Tại Diễn đàn Kinh tế Thế giới, Satya Nadella, CEO của Microsoft, cho biết công ty không chỉ dựa vào một mô hình AI duy nhất và đang đa dạng hóa với nhiều mô hình khác nhau như Mixtral và Phi của Microsoft, bên cạnh việc sử dụng Llama của Meta trong một số ứng dụng.
- Microsoft đầu tư vào OpenAI từ năm 2019, giúp OpenAI chuyển đổi từ một phòng thí nghiệm nghiên cứu thành công ty AI với doanh thu trên 1 tỷ USD và giá trị định giá khoảng 100 tỷ USD.
- Quan hệ đối tác giữa Microsoft và OpenAI mang lại lợi ích lớn cho cả hai bên, giúp Microsoft dẫn đầu trong các sản phẩm AI mới nhờ quyền truy cập độc quyền vào mô hình tiên tiến của OpenAI và đóng góp vào sự tăng giá cổ phiếu của Microsoft.
- Các mô hình ngôn ngữ lớn (LLMs) không còn chỉ là những mô hình lớn cần nguồn lực tính toán khổng lồ và chỉ chạy trên đám mây, nhờ vào tiến bộ của các mô hình nguồn mở, đang có LLMs kích thước khác nhau có thể chạy trên GPU dành cho người tiêu dùng và thậm chí cả trên thiết bị di động.
- Sự thay đổi này làm giảm lợi thế của OpenAI và các công ty chỉ bán quyền truy cập dựa trên API đến các mô hình của họ. Cuộc cạnh tranh sẽ dần chuyển từ hiệu suất sang giá cả.
- Microsoft đang chuẩn bị cho tương lai bằng cách tách rời các sản phẩm của mình khỏi mô hình của OpenAI và khám phá các mô hình ngôn ngữ trên thiết bị với mô hình Phi.
- OpenAI cũng đang chuẩn bị cho tương lai nhưng vẫn cực kỳ phụ thuộc vào Microsoft cho sự thành công và kinh doanh tiếp tục của mình.

📌 Microsoft đang tiếp tục đa dạng hóa và giảm sự phụ thuộc vào OpenAI bằng cách sử dụng các mô hình AI khác như Llama của Meta và phát triển các mô hình của riêng mình như Mixtral và Phi. Với sự thay đổi trong thị trường LLMs, từ việc cạnh tranh dựa trên hiệu suất sang giá cả và sự phát triển của các mô hình nguồn mở, Microsoft đang chuẩn bị cho một tương lai mà việc sở hữu quyền truy cập độc quyền tới GPT-4 và các mô hình kế nhiệm có thể không còn là lợi thế cạnh tranh. OpenAI vẫn cần Microsoft cho sự phát triển kinh doanh của mình, dù đã có những chuẩn bị cho các thay đổi trong thị trường.

Không có file đính kèm.

Nguồn tham khảo

137

AI mở-nguồn mở 2024-01-18 17:01:55

Jan: An Open-Source ChatGPT Alternative that Runs 100% Offline on Your Computer

Jan là một phần mềm chatbot nguồn mở và hoạt động hoàn toàn ngoại tuyến, được giới thiệu như một lựa chọn thay thế cho ChatGPT.
Chatbot này có thể được cài đặt và sử dụng trực tiếp trên máy tính cá nhân mà không cần kết nối internet.
Jan được phát triển nhằm mục đích tăng cường quyền riêng tư và kiểm soát dữ liệu cho người dùng, đồng thời giảm phụ thuộc vào các dịch vụ đám mây.
Các nhà phát triển Jan nhấn mạnh sự quan trọng của việc có khả năng tùy chỉnh và kiểm soát hoàn toàn dữ liệu, điều này thường không thể với các dịch vụ dựa trên cloud.
Jan hỗ trợ nhiều ngôn ngữ lập trình và hệ điều hành khác nhau, cho phép tích hợp linh hoạt vào các hệ thống sẵn có.
Tuy nhiên, mô hình nguồn mở này có thể chưa đạt được độ chính xác và hiệu năng ngang bằng với các phiên bản thương mại như ChatGPT do OpenAI.

📌 Jan không chỉ cung cấp một giải pháp nguồn mở cho những ai quan tâm đến quyền riêng tư và kiểm soát dữ liệu mà còn đánh dấu sự phát triển của cộng đồng AI nguồn mở. Sự ra đời của Jan thể hiện rõ nhu cầu tăng cường sự độc lập về công nghệ và khả năng tự chủ, đồng thời cũng mở ra cánh cửa cho việc phát triển các công cụ tương tự, dựa trên cộng đồng và hướng đến việc tối ưu hóa dữ liệu nội bộ mà không phụ thuộc vào các dịch vụ đám mây. Khả năng chạy hoàn toàn ngoại tuyến của Jan cung cấp một lựa chọn quan trọng cho người dùng và doanh nghiệp đang tìm kiếm sự linh hoạt và độc lập trong việc triển khai AI.

Không có file đính kèm.

Nguồn tham khảo

137

AI mở-nguồn mở 2024-01-13 20:34:47

More than an OpenAI Wrapper: Perplexity Pivots to Open Source

- Perplexity, một dự án phần mềm liên quan đến AI, đã quyết định chuyển hướng sang nguồn mở.
- Việc này cho phép cộng đồng phát triển công nghệ AI có thể tự do sử dụng và cải tiến dự án.
- Động thái này nhằm tạo điều kiện cho sự hợp tác và đổi mới, phá vỡ rào cản sở hữu độc quyền.
- Mục tiêu của Perplexity là không chỉ làm một "OpenAI Wrapper" mà còn mở rộng khả năng tiếp cận công nghệ AI.
- Quyết định này được đánh giá cao trong cộng đồng phần mềm nguồn mở và được kỳ vọng sẽ thúc đẩy sự phát triển của ngành công nghiệp AI.
- Chuyển đổi sang nguồn mở cũng giúp Perplexity tăng cường tính minh bạch và đáng tin cậy của sản phẩm.
- Công bố này nhấn mạnh sự cam kết của Perplexity đối với việc tạo ra một nền tảng AI mạnh mẽ, dễ dàng tích hợp và mở rộng.

📌 Perplexity đã chính thức trở thành một dự án nguồn mở, mở ra cơ hội cho cộng đồng phát triển mở rộng và cải tiến công nghệ AI. Việc này không chỉ thể hiện tinh thần hợp tác mà còn tạo điều kiện cho sự đổi mới không giới hạn. Sự kiện này được kỳ vọng sẽ có ảnh hưởng đáng kể đến tương lai của ngành công nghiệp AI, tăng cường tính minh bạch và mở rộng tầm ảnh hưởng của AI trong các ứng dụng thực tế.

Không có file đính kèm.

Nguồn tham khảo

179

AI mở-nguồn mở AI cybersecurity 2024-01-13 19:55:49

AI nguồn mở đặc biệt nguy hiểm

AI ứng dụng hiện nay thường được biết đến là "AI mã nguồn đóng" như ChatGPT của OpenAI, với phần mềm được bảo mật bởi nhà sản xuất và một số đối tác đã được xác minh.
Người dùng tương tác với các hệ thống này thông qua giao diện web như chatbot, và người dùng doanh nghiệp có thể truy cập API để tích hợp hệ thống AI vào ứng dụng hoặc quy trình làm việc của họ.
Công chúng ít hiểu về việc phát hành nhanh chóng và không kiểm soát các hệ thống AI mã nguồn mở mạnh mẽ.
OpenAI ban đầu được thành lập để sản xuất hệ thống AI mã nguồn mở, nhưng đã quyết định ngừng phát hành mã nguồn và trọng số mô hình GPT vào năm 2019 vì lo ngại rủi ro.
Các công ty như Meta, Stability AI, Hugging Face, Mistral, EleutherAI, và Technology Innovation Institute đã chọn phát hành các hệ thống AI mã nguồn mở mạnh mẽ để dân chủ hóa việc truy cập AI.
Các nhóm ủng hộ đã đạt được tiến bộ hạn chế trong việc nhận được miễn trừ cho một số mô hình AI không an toàn trong Đạo luật AI của Liên minh Châu Âu.

📌 AI mã nguồn mở đặt ra rủi ro lớn chưa thể kiểm soát được. Các mô hình không an toàn như Llama 2 của Meta có thể bị lạm dụng dễ dàng bởi các tác nhân đe dọa. Các hệ thống AI này có thể được sử dụng để phân phối thông tin sai lệch và lừa đảo trên quy mô lớn, gây ảnh hưởng nghiêm trọng đến hệ thống thông tin và bầu cử. AI không an toàn cũng có thể hỗ trợ sản xuất vật liệu nguy hiểm như vũ khí hóa học và sinh học. Cần có các biện pháp quản lý và kiểm soát chặt chẽ để giảm thiểu rủi ro từ AI mã nguồn mở.

Không có file đính kèm.

Nguồn tham khảo

155

AI mở-nguồn mở AI models 2024-01-12 22:26:55

LLaMA Pro AI LLaMA sử dụng kỹ thuật mới

LLaMA Pro, phiên bản cải tiến của mô hình ngôn ngữ lớn LLaMA, sử dụng kỹ thuật "block expansion" để giải quyết vấn đề quên lãng khi học thông tin mới.
LLaMA Pro bổ sung thêm các lớp cho phép học tác vụ mới mà không mất kiến thức đã có.
Kỹ thuật block expansion giúp tối ưu hóa việc học của AI, tiết kiệm tài nguyên tính toán.
LLaMA Pro-8.3B, khởi đầu từ LLaMA2-7B, thể hiện khả năng xuất sắc trong các tác vụ chung, lập trình và toán học.
LLaMA Pro chứng minh tiềm năng trong việc xử lý nhiều tác vụ đa dạng và hội tụ ngôn ngữ tự nhiên và lập trình

📌 LLaMA Pro, phiên bản cải tiến của mô hình ngôn ngữ lớn LLaMA, sử dụng kỹ thuật "block expansion" để giải quyết vấn đề quên lãng khi học thông tin mới. Sự cải tiến này không chỉ nâng cao khả năng của AI trong việc xử lý nhiều tác vụ cùng lúc mà còn giúp tiết kiệm tài nguyên tính toán. LLaMA Pro đặt nền móng cho việc phát triển các hệ thống AI hiệu quả hơn, mở ra cánh cửa cho các ứng dụng AI phức tạp và đa dạng trong tương lai.

Không có file đính kèm.

Nguồn tham khảo

274

AI mở-nguồn mở OpenAI ChatGPT 2024-01-03 10:12:33

Mã nguồn mở hoặc OpenAI: Con đường tốt nhất tới AI nâng cao là gì?

Một cựu nhà nghiên cứu AI của Google đã tham gia cuộc tranh luận trên Twitter về việc liệu mô hình AI nguồn mở có thể cạnh tranh với mô hình độc quyền được tài trợ tốt như GPT-4 của OpenAI hay không.
Arnaud Benard, đồng sáng lập của Galileo AI, khẳng định rằng mô hình nguồn mở không thể đánh bại GPT-4 trong năm nay, nhấn mạnh vào tài năng, tài nguyên của OpenAI và tính chất vượt trội của GPT-4.
Ryan Casey, một người hâm mộ AI, lại lạc quan rằng nguồn mở có thể sánh ngang hoặc vượt qua mô hình tư nhân trong năm nay nếu có nhu cầu và đổi mới.
Jeremi Traguna, chiến lược gia AI, cho rằng mô hình nguồn mở khó theo kịp tốc độ của OpenAI khi mục tiêu liên tục di chuyển.
Jon Howells, một nhà phân tích công nghệ, tin rằng Mistral AI có thể phát hành mô hình nguồn mở cấp độ GPT-4 vào cuối năm nay.
Mistral AI, một startup Pháp, đã nhận được sự chú ý sau khi phát hành Mixtral LLM, vượt trội hơn GPT-3.5 trong nhiều trường hợp sử dụng.
Santiago Pino của ML School nhấn mạnh open-source AI cung cấp khả năng tùy chỉnh và kiểm soát, rất hữu ích cho người dùng doanh nghiệp.
Sciumo Inc., một công ty phát triển phần mềm, nhấn mạnh khả năng cạnh tranh của mô hình nguồn mở trong các vấn đề cụ thể của ngành.
Yan Lecun của Meta và Google đều ủng hộ mô hình nguồn mở với khả năng tùy chỉnh cao và bảo mật tốt hơn.

📌 Mặc dù các mô hình nguồn mở AI có thể chưa sẵn sàng để vượt qua GPT-4 của OpenAI trong năm nay, nhưng sự tiến bộ không ngừng và khả năng tùy chỉnh đã đặt nền móng cho một cuộc cạnh tranh sôi nổi. Với sự hỗ trợ tài chính và đội ngũ mạnh mẽ, các công ty như Mistral AI đang phát triển các mô hình có thể cạnh tranh và thậm chí vượt trội so với GPT-3.5. Các chuyên gia từ cả hai phía đều thừa nhận rằng mô hình nguồn mở phát triển nhanh chóng, cung cấp khả năng vĩnh viễn và khả năng tùy chỉnh, mặc dù mô hình đóng có lợi thế về nguồn lực và sự lặp đi lặp lại nhanh chóng.

Không có file đính kèm.

Nguồn tham khảo

151

AI mở-nguồn mở 2023-12-25 15:54:45

Apple gây bất ngờ cho cộng đồng AI khi phát hành Mustelid nguồn mở

Bài viết trên PED30 thông báo Apple đang phát triển Ferret, một Mô hình Ngôn ngữ Lớn (LLM) mới, dự kiến sẽ mở ra.
Ferret được thiết kế để cải thiện khả năng hiểu ngôn ngữ tự nhiên và xử lý thông tin, hỗ trợ trong các ứng dụng và dịch vụ của Apple.
Mô hình này hứa hẹn sẽ tăng cường khả năng tương tác giữa người dùng và thiết bị của Apple, cung cấp trải nghiệm người dùng mượt mà và tự nhiên hơn.
Apple có kế hoạch tích hợp Ferret vào các dịch vụ hiện có như Siri, Apple Maps và iMessage, nhằm nâng cao chất lượng và hiệu quả của các dịch vụ này.
Ferret cũng được kỳ vọng sẽ đóng vai trò quan trọng trong việc phát triển các sản phẩm và dịch vụ tương lai của Apple, bao gồm cả trong lĩnh vực AI và máy học.
Bài viết nhấn mạnh rằng việc phát triển Ferret là một phần trong chiến lược lâu dài của Apple nhằm tận dụng tối đa tiềm năng của AI và công nghệ tiên tiến.
Kết luận là Ferret có thể là một bước tiến quan trọng trong việc nâng cao khả năng tương tác và hiểu biết AI của Apple, mang lại trải nghiệm người dùng thông minh và tiện lợi hơn.

📌 Sự phát triển của Ferret bởi Apple, một mô hình ngôn ngữ lớn mới, đánh dấu một bước tiến trong việc tích hợp AI vào các sản phẩm và dịch vụ, hướng tới việc cung cấp trải nghiệm người dùng thông minh và tối ưu hơn.

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI nhỏ 2023-12-23 14:26:59

Nvidia: LLM nhỏ, vấn đề lớn hơn

Nvidia đang đối mặt với thách thức do xu hướng AI hiện nay chuyển dịch về LLM nhỏ gọn và hiệu quả hơn.
Doanh thu quý III FY 2023 của Nvidia tăng 206%, đạt 18.12 tỷ USD, nhưng sự phát triển của các mô hình LLM nhỏ gọn có thể làm giảm nhu cầu về GPU cao cấp của hãng.
Intel với bộ vi xử lý Intel Xeon Scalable thế hệ thứ 5 cho phép xử lý tác vụ AI hiệu quả hơn, cạnh tranh trực tiếp với GPU của Nvidia.
Mô hình nguồn mở Mistral 7B và các lựa chọn thay thế khác từ đối thủ cung cấp công nghệ AI dễ tiếp cận và giá cả phải chăng hơn, đe dọa tăng trưởng EPS của Nvidia.
Nvidia nắm giữ 70% thị phần trong thị trường chip AI, nhưng sự phát triển của Intel và các LLM nhỏ gọn có thể hạn chế tăng trưởng thị phần này.
Nvidia đã phát triển nền tảng CUDA và các sản phẩm như CPU Grace, DPU BlueField và supercomputer DGX SuperPOD để củng cố vị thế.
Các LLM nhỏ giúp giảm chi phí phát triển AI, mở rộng cơ hội cho SMEs và đáp ứng đặc thù doanh nghiệp.
Mistral 7B vượt trội so với Llama 2 13B và cạnh tranh sát sao với Llama 1 34B trong nhiều tiêu chí, đồng thời làm giảm chi phí API và nhu cầu về phần cứng.
Giá API giảm từ Anthropic và OpenAI trong hai tháng qua, tạo áp lực về giá lên Nvidia khi chi phí chip H100 cao gấp đôi so với các mô hình nhỏ.

📌 Nvidia, dẫn đầu thị trường chip AI, đang đối mặt với sự cạnh tranh từ các mô hình LLM nhỏ gọn và tiết kiệm chi phí, cũng như từ các sản phẩm của Intel. Sự phát triển của công nghệ nguồn mở như Mistral 7B làm giảm nhu cầu về GPU cao cấp của Nvidia, đe dọa đến dự báo tăng trưởng của công ty. Với tăng trưởng doanh thu 206% trong quý gần nhất, Nvidia cần đánh giá lại chiến lược để duy trì vị thế trong bối cảnh thị trường AI đang thay đổi.

Không có file đính kèm.

Nguồn tham khảo

160

AI mở-nguồn mở 2023-12-22 12:36:42

Chiến lược AI: Doanh nghiệp của tôi nên chọn “nguồn mở” hay “nguồn đóng”?

Bài viết từ Big Think đề cập đến việc lựa chọn giữa nguồn mở và nguồn đóng cho AI tạo sinh trong doanh nghiệp.
Kent Keirsey, CEO của Invoke AI, phân tích ưu nhược điểm của cả hai hướng tiếp cận.
Các công cụ AI tạo sinh như ChatGPT, DALL-E, và Midjourney thu hút sự chú ý rộng rãi, với mô hình nguồn mở như Llama-2 và SDXL của Hugging Face đang nổi lên.
Người dùng có thể tùy chỉnh, kiểm soát và sở hữu cơ sở mô hình, mô hình chuyên biệt và ứng dụng cuối cùng trong hệ thống nguồn mở.
Trong khi đó, mô hình nguồn đóng cung cấp một trải nghiệm "ngay lập tức" với ít cơ hội tùy chỉnh, nhưng có thể phù hợp với các doanh nghiệp không xem AI là chức năng cốt lõi.
Cả hai loại hình đều chịu sự giám sát của nhà quản lý và chuyên gia an toàn AI.
Lựa chọn giữa nguồn mở và nguồn đóng không phải lúc nào cũng rõ ràng, và các doanh nghiệp cần đánh giá kỹ lưỡng để phù hợp với nhu cầu hiện tại và tương lai.

📌 Bài viết từ Big Think đưa ra cái nhìn sâu sắc về lựa chọn giữa nguồn mở và nguồn đóng cho AI tạo sinh, với nhấn mạnh vào khả năng tùy chỉnh và kiểm soát trong nguồn mở, so với sự tiện lợi và ít rắc rối từ nguồn đóng, đồng thời cảnh báo về sự cần thiết của việc cân nhắc an toàn khi triển khai các giải pháp AI.

Không có file đính kèm.

Nguồn tham khảo

128

AI models AI mở-nguồn mở OpenAI ChatGPT 2023-12-19 09:16:21

Mistral AI chuyển sang Mô hình cấp độ GPT-4 mã nguồn mở vào năm 2024

Bài viết trên Analytics India Magazine thông báo về kế hoạch của Mistral AI phát hành một mô hình tương đương GPT-4 dưới dạng nguồn mở vào năm 2024.
Mistral AI nhấn mạnh sự cần thiết của việc cung cấp công nghệ AI tiên tiến cho cộng đồng.
Mô hình nguồn mở này hứa hẹn mang lại lợi ích cho các nhà nghiên cứu và phát triển, cho phép họ tùy chỉnh và cải tiến mô hình.
Sự kiện này đánh dấu một bước tiến quan trọng trong lĩnh vực AI, với việc chia sẻ công nghệ mạnh mẽ với cộng đồng rộng lớn.
Mistral AI hy vọng mô hình của họ sẽ thúc đẩy đổi mới và sự sáng tạo trong nhiều lĩnh vực khác nhau.
Có những lo ngại về việc sử dụng không kiểm soát của công nghệ AI nguồn mở này, đặc biệt là về an toàn và đạo đức.
Mistral AI dự định triển khai các biện pháp để đảm bảo an toàn và tuân thủ đạo đức trong sử dụng mô hình của họ.

Bài viết từ Analytics India Magazine giới thiệu kế hoạch của Mistral AI về việc phát hành mô hình tương đương GPT-4 dưới dạng nguồn mở vào năm 2024, một sự kiện đánh dấu bước tiến quan trọng trong việc chia sẻ công nghệ AI với cộng đồng, mặc dù vẫn còn lo ngại về các vấn đề an toàn và đạo đức.

Không có file đính kèm.

Nguồn tham khảo

155

AI mở-nguồn mở AI startup-M&A AI so sánh 2023-12-17 09:41:44

Mixtral 8X7B AI Agent đã được thử nghiệm hiệu năng đáng kinh ngạc

- Mixtral 8X7B là AI tạo sinh với công nghệ tiên tiến, cạnh tranh với các mô hình như GPT3.5.

- Mô hình dựa trên SMoE, hỗ trợ hiểu biết sâu sắc về ngữ cảnh với khả năng xử lý 32k token.

- Hỗ trợ đa ngôn ngữ: tiếng Anh, Pháp, Ý, Đức, và Tây Ban Nha.

- Nổi bật với khả năng tạo mã code, tăng năng suất và giảm lỗi cho lập trình viên.

- Inference speed nhanh gấp sáu lần, thúc đẩy tích hợp AI vào công việc đòi hỏi thời gian thực.

- Có tỷ lệ hiệu suất chi phí ấn tượng, giúp đầu tư vào AI hiệu quả mà không làm tăng chi phí.

- Mô hình nguồn mở dưới giấy phép Apache 2.0, thúc đẩy sự đổi mới và ứng dụng đa dạng.

Mixtral 8X7B không chỉ là một bước tiến trong lĩnh vực AI tạo sinh mà còn là một lựa chọn kinh tế cho các doanh nghiệp và nhà phát triển. Với khả năng xử lý ngôn ngữ mạnh mẽ, tốc độ nhanh chóng và mô hình nguồn mở, Mixtral 8X7B hứa hẹn sẽ có vai trò quan trọng trong việc chuyển đổi các ngành công nghiệp bằng AI.

Mixtral 8X7B - AI tạo sinh tiên tiến cho lập trình viên và ngành công nghiệp đa ngôn ngữ.

"Mixtral 8X7B, AI tạo sinh, mô hình SMoE, ngôn ngữ đa dạng, tạo mã code, inference speed nhanh, nguồn mở Apache 2.0"

AI tạo sinh Mixtral 8X7B: Hiệu suất vượt trội, nguồn mở và đa ngôn ngữ

Không có file đính kèm.

Nguồn tham khảo

176

AI coding assistant AI mở-nguồn mở 2023-12-15 14:53:43

Sourcegraph ra mắt công cụ AI tạo Cody để viết mã

- Tóm tắt nội dung bài viết về công cụ AI sinh mã Cody của Sourcegraph:

- Sourcegraph cho ra mắt công cụ mã nguồn mở Cody sử dụng AI sinh mã để viết và sửa mã.

- Phiên bản 1.0 của Cody sử dụng các mô hình ngôn ngữ lớn như StarCoder, GPT-4 Turbo, Claude 2.

- Cody được tích hợp với công cụ tìm kiếm mã nguồn của Sourcegraph để cung cấp ngữ cảnh cho mã.

- Cody có thể tìm kiếm mã và tài liệu để đề xuất kế hoạch triển khai tính năng mới.

- Phiên bản sau sẽ tích hợp chặt chẽ hơn với đồ thị mã nguồn phổ quát của Sourcegraph.

- Cody giúp lập trình viên viết mã nhanh hơn, nhưng vẫn cần đánh giá mã trước khi triển khai.

Không có file đính kèm.

Nguồn tham khảo

208

AI tools AI mở-nguồn mở 2023-12-15 14:26:29

Mô hình Microsoft AI dưới dạng dịch vụ có sẵn trong Azure AI – Phi-2, Orca 2, Llama 2

- Microsoft giới thiệu dịch vụ AI model-as-a-service trong Azure AI, bao gồm Meta's Llama 2 và GPT-4 Turbo với Vision.

- Llama 2 là một công cụ hỗ trợ phát triển ứng dụng AI với khả năng xử lý ngôn ngữ mạnh mẽ.

- GPT-4 Turbo kết hợp xử lý ngôn ngữ tự nhiên với computer vision, mở rộng khả năng của các ứng dụng multimodal.

- Phi-2 là một mô hình ngôn ngữ nhỏ (SLM) với 2,7 tỉ tham số, cải thiện về khả năng suy luận và an toàn so với Phi-1-5.

- DeciLM-7B, một mô hình sinh văn bản chỉ với bộ giải mã, có 7,04 tỉ tham số.

- DeciDiffusion 1.0 là mô hình sinh ảnh từ văn bản dựa trên kỹ thuật diffusion.

- DeciCoder 1B là mô hình hoàn thiện code với 1 tỉ tham số, huấn luyện trên dữ liệu Python, Java và JavaScript.

- Orca 2 cải thiện từ mô hình ngôn ngữ nhỏ, với hiệu suất tương đương hoặc tốt hơn các mô hình lớn hơn 5-10 lần.

- Mixtral 8x7b sử dụng kỹ thuật Mixture of Experts, có hiệu suất tương đương mô hình 12 tỉ tham số.

- Azure AI Studio hỗ trợ benchmarking và đánh giá mô hình, giúp lựa chọn mô hình phù hợp dễ dàng hơn.

Cùng với việc mở rộng danh mục mô hình AI, Microsoft cũng hỗ trợ cho các công ty như Dentons áp dụng các mô hình AI vào thực tiễn, chẳng hạn như tổng hợp hợp đồng pháp lý, giảm thiểu thời gian làm việc từ 4 giờ xuống còn 5 phút. Điều này không chỉ thúc đẩy hiệu suất mà còn chứng tỏ tiềm năng lớn của AI trong việc cải tiến công nghệ và phát triển ứng dụng.

Microsoft Azure AI nâng cấp với AI tạo sinh và multimodal: Llama 2 và GPT-4 Turbo.

Microsoft Azure AI, Llama 2, GPT-4 Turbo, AI tạo sinh, multimodal, Phi-2, DeciLM-7B, DeciDiffusion, DeciCoder, Orca 2, Mixtral 8x7b.

Microsoft Azure AI mở rộng với các mô hình AI đột phá: Phi-2, Orca 2, Llama 2.

Không có file đính kèm.

Nguồn tham khảo

260

AI tools AI mở-nguồn mở 2023-12-14 16:25:27

MISTRAL AI HỢP TÁC VỚI GOOGLE CLOUD VÀ PHÁT HÀNH LLM MÃ NGUỒN MỞ MỚI

- Tóm tắt nội dung bài viết:

- Mistral AI hợp tác với Google Cloud, phát hành mô hình ngôn ngữ lớn mở Mixtral-8x7B.

- Mixtral-8x7B có hiệu năng tốt hơn các mô hình khác, giấy phép sử dụng rộng rãi.

- Hợp tác đưa mô hình của Mistral lên cơ sở hạ tầng AI của Google Cloud.

- Tích hợp mô hình Mistral-7B vào Google Vertex AI Model Garden.

- Các mô hình Mistral sẽ có sẵn trên Google Cloud Marketplace.

- Đối tác mang lại giải pháp AI an toàn, bảo mật cho các tổ chức.

- Sự kết hợp giữa đổi mới của Mistral và cơ sở hạ tầng của Google Cloud.

Không có file đính kèm.

Nguồn tham khảo

168

AI tools AI mở-nguồn mở AI năng suất 2023-12-14 16:19:58

Mozilla ra mắt Solo AI được thiết kế cho những người làm việc tự do và 'người làm việc độc lập'

- Tóm tắt nội dung bài viết:

- Mozilla giới thiệu Solo AI - công cụ xây dựng website dành cho freelancer và doanh nhân độc lập.

- Solo AI sử dụng AI để tạo nội dung và hình ảnh cho website mà người dùng có thể chỉnh sửa sau đó.

- Người dùng chỉ cần cung cấp thông tin cơ bản về dự án, Solo AI sẽ xây dựng website trong vài phút.

- Động thái này nằm trong chiến lược của Mozilla hướng đến xây dựng hệ sinh thái AI mở và đáng tin cậy.

- Mozilla muốn trở thành nền tảng AI đáng tin cậy, thay thế cho các công ty công nghệ lớn.

- Việc Mozilla có thể cạnh tranh với các ông lớn công nghệ về AI vẫn còn phải chứng minh.

Không có file đính kèm.

Nguồn tham khảo

163

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

AI mở-nguồn mở

📌

Cheaper AI like China’s DeepSeek are ‘very welcome,’ says Singapore’s digital minister Josephine Teo

The U.S., China … and Singapore

Moonshot’s Kimi K2 soars in popularity amid experts’ praise for Chinese AI developments

DeepSeek represents a shift in the global tech narrative

📌

Why China is giving away its tech for free

Its newfound fondness for open-source is awkward for an authoritarian state

Version control

DeepSeek Says Upgraded Model Reasons Better, Hallucinates Less

Marc Andreessen nói Mỹ cần dẫn đầu AI mã nguồn mở: 'Hãy tưởng tượng nếu toàn thế giới — bao gồm cả Mỹ — chạy trên phần mềm Trung Quốc'

Mã nguồn mở so với mã nguồn đóng

Marc Andreessen says the US needs to lead open-sourced AI: 'Imagine if the entire world — including the US — runs on Chinese software'

Open source vs closed source

Nghiên cứu của DeepSeek tiết lộ chi tiết mới về cách họ sử dụng 2.048 chip Nvidia để cạnh tranh với OpenAI

Tại sao bạn có thể tin tưởng SCMP

DeepSeek paper offers new details on how it used 2,048 Nvidia chips to take on OpenAI

DeepSeek phát hành mô hình toán học mã nguồn mở Prover-V2

🧠 Điểm đáng suy nghĩ

1️⃣ Suy luận toán học nổi lên như biên giới mới của AI

2️⃣ Kiến trúc Mixture-of-Experts thúc đẩy hiệu quả trong các mô hình khổng lồ

3️⃣ Các mô hình mã nguồn mở thách thức sự thống trị của AI độc quyền

Một nhà tiên phong mã nguồn mở muốn giải phóng robot AI mã nguồn mở

Meta cho biết các mô hình AI mới nhất trả lời nhiều câu hỏi "gây tranh cãi" hơn phiên bản trước

Sam Altman nói OpenAI sẽ phát hành mô hình AI "Open Weight" vào mùa hè này

Tại sao mã nguồn mở là then chốt để đảm bảo cạnh tranh trong AI

Bài học từ lịch sử

Tại sao mã nguồn mở quan trọng

Cân bằng giữa mở và đóng

AI 'mã nguồn mở' không thực sự mở — đây là cách các nhà nghiên cứu có thể lấy lại thuật ngữ này

Kế hoạch của Bắc Kinh

Thách thức

Liệu có khả thi?

Xuất phát từ con số 0 hay có lợi thế?

Các bên tham gia và sự vắng mặt của Mistral AI

Xây dựng nền tảng

Định nghĩa về mã nguồn mở

Hai dự án trùng lặp?

Khoảng cách tài trợ

Chủ quyền số

DeepSeek đã xây dựng AI với chi phí thấp hơn như thế nào?

Công nghệ AI được xây dựng như thế nào?

DeepSeek đã giảm chi phí bằng cách nào?

Và phương pháp đó hiệu quả hơn?

Có liên quan đến toán học sao?

Điều đó có làm giảm độ chính xác không?

Chỉ có vậy thôi sao?

Vậy bất kỳ học sinh trung học nào cũng có thể làm được điều này?

Vậy tại sao các công ty khác chưa làm điều này?

📌

Cách các mô hình AI mới của DeepSeek đang ảnh hưởng đến lợi nhuận của các công ty toàn cầu

DeepSeek giúp giảm chi phí

Đột phá từ mã nguồn mở

Chi phí AI đang trở nên không đáng kể

So sánh theo từng bài toán

Khuyến nghị sử dụng

📌

📝 SEO Content

📌

📌

📌

📢 SEO nội dung:

📌

Cách Trung Quốc tạo ra mô hình AI DeepSeek và khiến thế giới sửng sốt

Ưu tiên của chính phủ

“Hiệu suất trong điều kiện hạn chế”

Tại sao ‘Chưng cất’ trở thành từ đáng sợ nhất đối với các công ty AI

Chưng cất không phải ý tưởng mới, nhưng thành công của DeepSeek đang làm lung lay mô hình kinh doanh của các ông lớn AI

Các mô hình AI của OpenAI và Google vẫn dẫn trước DeepSeek, nhưng chi phí thấp đang thay đổi cuộc chơi

Công nghệ chưng cất đang thay đổi cuộc chơi AI

Chi phí AI giảm mạnh, gây áp lực lên các ông lớn

DeepSeek gây chấn động thị trường

Với DeepSeek, Trung Quốc đổi mới còn Mỹ bắt chước

Cơn đau đầu của các tập đoàn công nghệ Mỹ

DeepSeek có giống một start-up Thung lũng Silicon?

Cách tiếp cận khác biệt của DeepSeek

Mỹ lo lắng, nhưng cũng nhanh chóng tận dụng

Mỹ hưởng lợi nhiều hơn Trung Quốc?