- Ai2, tổ chức nghiên cứu AI phi lợi nhuận do Paul Allen sáng lập, vừa ra mắt OLMo 2, dòng mô hình ngôn ngữ mới.
- OLMo là viết tắt của "Open Language Model", bao gồm 2 mô hình là OLMo 7B (7 tỷ tham số) và OLMo 13B (13 tỷ tham số).
- OLMo 2 đáp ứng định nghĩa nguồn mở của Open Source Initiative, với dữ liệu huấn luyện và mã nguồn có sẵn công khai.
- Ai2 sử dụng bộ dữ liệu gồm 5 nghìn tỷ token để huấn luyện mô hình, bao gồm websites, tài liệu học thuật và diễn đàn thảo luận.
- Mô hình có khả năng thực hiện nhiều nhiệm vụ dựa trên văn bản, như trả lời câu hỏi, tóm tắt tài liệu và viết mã.
- OLMo 2 cho thấy sự cải thiện rõ rệt về hiệu suất so với các mô hình trước đó và vượt trội hơn Llama 3.1 với 8 tỷ tham số.
- Các mô hình OLMo 2 có thể tải xuống miễn phí từ trang web của Ai2, dưới giấy phép Apache 2.0 cho phép sử dụng thương mại.
- Có tranh luận về độ an toàn của các mô hình mở, nhưng Ai2 tin rằng lợi ích vượt xa rủi ro.
- Ai2 nhấn mạnh rằng việc chia sẻ dữ liệu và mô hình cách công khai sẽ thúc đẩy sự phát triển công nghệ, mang lại mô hình đạo đức hơn.
📌 OLMo 2 của Ai2 với 7 và 13 tỷ tham số ra mắt cạnh tranh với Llama 3.1. Với 5 nghìn tỷ token, OLMo 2 cho thấy hiệu suất vượt trội và đáp ứng tiêu chuẩn nguồn mở, mở đường cho tiến bộ công nghệ.
https://techcrunch.com/2024/11/26/ai2-releases-new-language-models-competitive-with-metas-llama/
- Elon Musk và xAI vừa huy động thêm 5 tỷ USD từ các nhà đầu tư lớn, trong khi Amazon đầu tư 4 tỷ USD vào đối thủ của OpenAI, Anthropic.
- Các công ty lớn như Microsoft, Google, Meta và Amazon đang rót hàng tỷ USD vào việc phát triển các mô hình ngôn ngữ lớn (LLM) để xử lý nhu cầu đa dạng.
- Đối với nhiều doanh nghiệp, mô hình ngôn ngữ nhỏ và các mô hình ngôn ngữ theo miền (lĩnh vực chuyên môn) có thể mang lại giải pháp tối ưu hơn so với các mô hình lớn.
- Mô hình ngôn ngữ lớn hiện đang trở thành công cụ quan trọng giúp doanh nghiệp tổng hợp dữ liệu và phản hồi các truy vấn bằng ngôn ngữ tự nhiên.
- Matt Garman, CEO của Amazon Web Services, nhấn mạnh sự thành công trong việc phát triển ứng dụng AI tạo sinh thông qua sự hợp tác với Anthropic.
- IDC dự báo chi tiêu toàn cầu cho AI sẽ tăng gấp đôi trong bốn năm tới, đạt 632 tỷ USD, với AI tạo sinh chiếm 32% tổng chi tiêu.
- Mặc dù các mô hình lớn có sức mạnh, nhưng chúng cũng đòi hỏi chi phí cao về tài chính, năng lượng và tài nguyên máy tính.
- Steve McMillan, CEO của Teradata, nhận định rằng các mô hình ngôn ngữ nhỏ và mô hình theo miền có thể cung cấp giải pháp hiệu quả hơn cho một số doanh nghiệp.
- Việc hiểu rõ tác động của công nghệ AI đối với môi trường kinh doanh ngày càng trở nên quan trọng, đặc biệt trong bối cảnh cạnh tranh gay gắt hiện nay.
📌 Xu hướng đầu tư vào mô hình ngôn ngữ nhỏ đang tăng mạnh, với dự báo chi tiêu cho AI sẽ lên đến 632 tỷ USD trong 4 năm tới. Các mô hình nhỏ và theo miền có thể tiết kiệm chi phí và nâng cao hiệu quả cho doanh nghiệp so với các mô hình lớn.
https://www.forbes.com/sites/deandebiase/2024/11/25/why-small-language-models-are-the-next-big-thing-in-ai/
- NVIDIA giới thiệu mô hình Hymba 1.5B, một mô hình ngôn ngữ nhỏ hybrid với 1,5 tỷ tham số.
- Hymba kết hợp giữa Mamba và các attention heads, giúp tăng cường hiệu suất và hiệu quả cho các mô hình NLP nhỏ.
- Mô hình này được huấn luyện trên 1,5 triệu tệp dữ liệu (tokens), cho phép xử lý nhanh và tiết kiệm tài nguyên.
- Kiến trúc hybrid-head parallel cho phép các attention heads và SSM xử lý dữ liệu đầu vào song song, kết hợp ưu điểm của cả hai phương pháp.
- Hymba sử dụng các meta token có thể học được, được chèn vào từng đầu vào để lưu trữ thông tin quan trọng, giảm tải cho các cơ chế chú ý.
- Mô hình tối ưu hóa với việc chia sẻ khóa-giá trị (KV) giữa các lớp và cửa sổ trượt một phần, giúp duy trì kích thước bộ nhớ gọn gàng.
- Mô hình có 16 trạng thái SSM và 3 lớp chú ý đầy đủ, phần còn lại sử dụng chú ý cửa sổ trượt để cân bằng giữa hiệu suất và độ phân giải bộ nhớ.
- Hymba-1.5B-Base vượt qua tất cả các mô hình công khai dưới 2B, đạt độ chính xác trung bình cao hơn Llama-3.2-3B 1,32% với kích thước bộ nhớ cache giảm 11,67 lần.
- Tốc độ xử lý khoảng 664 token mỗi giây, cao hơn so với SmolLM2 và Llama-3.2-3B, cho thấy tính khả thi trong các tình huống thực tế.
- Hymba thể hiện khả năng vượt trội trong nhiều tác vụ, đặc biệt là các nhiệm vụ yêu cầu nhớ nhiều thông tin.
📌 NVIDIA đã phát triển mô hình Hymba 1.5B với 1,5 tỷ tham số, vượt trội hơn Llama 3.2 với độ chính xác cao hơn 1,32% và tốc độ xử lý 664 token mỗi giây, cho thấy khả năng hoạt động hiệu quả trên thiết bị hạn chế.
https://www.marktechpost.com/2024/11/22/nvidia-introduces-hymba-1-5b-a-hybrid-small-language-model-outperforming-llama-3-2-and-smollm-v2/
• Mô hình ngôn ngữ lớn (LLM) như GPT-4, Claude, PaLM và Llama đang thống trị lĩnh vực AI nhưng đòi hỏi tài nguyên tính toán và cơ sở hạ tầng lớn
• Mô hình ngôn ngữ nhỏ (SLM) là giải pháp thay thế với số lượng tham số từ vài triệu đến vài tỷ, phù hợp cho thiết bị có tài nguyên hạn chế
• Ưu điểm của SLM trên thiết bị biên:
- Xử lý thời gian thực không có độ trễ
- Tiết kiệm năng lượng
- Bảo mật dữ liệu tốt hơn nhờ xử lý cục bộ
• Thách thức chính khi triển khai SLM:
- Tài nguyên tính toán hạn chế
- Bộ nhớ và lưu trữ giới hạn
- Thời lượng pin ngắn
• Chiến lược tối ưu hóa SLM:
- Nén mô hình và lượng tử hóa để giảm kích thước
- Chưng cất tri thức từ mô hình lớn sang nhỏ
- Học liên hợp trực tiếp trên thiết bị
• Công cụ và framework hỗ trợ:
- TensorFlow Lite (LiteRT)
- ONNX Runtime
- MediaPipe của Google
• Ứng dụng thực tế:
- Dịch ngôn ngữ thời gian thực
- Nhận dạng giọng nói
- IoT công nghiệp
- Thiết bị y tế
- Hệ thống an ninh thông minh
📌 SLM mở ra kỷ nguyên mới cho AI trên thiết bị biên với ưu điểm về hiệu quả, bảo mật và xử lý thời gian thực. Mô hình này chỉ yêu cầu từ vài triệu đến vài tỷ tham số, phù hợp triển khai trên smartphone, thiết bị đeo và IoT mà không cần kết nối cloud.
https://www.forbes.com/councils/forbestechcouncil/2024/11/15/scaling-small-language-models-slms-for-edge-devices-a-new-frontier-in-ai/
- AI đã phát triển mạnh mẽ với các mô hình ngôn ngữ lớn (LLMs) như LaPM 540B và Llama-3.1 405B, nhưng yêu cầu tính toán cao của chúng gây khó khăn trong ứng dụng thực tế.
- Các LLMs thường dựa vào điện toán đám mây, cần bộ nhớ GPU lớn, gây lo ngại về quyền riêng tư và không thể triển khai ngay trên thiết bị.
- Mô hình ngôn ngữ nhỏ (SLMs) được nghiên cứu như một lựa chọn hiệu quả, có khả năng thực hiện các tác vụ chuyên biệt với yêu cầu tính toán thấp hơn.
- Vấn đề chính với LLMs là chi phí tính toán cao và độ trễ lớn, đặc biệt trong các ứng dụng chuyên biệt.
- Ví dụ, mô hình Llama-3.1 với 405 tỷ tham số yêu cầu hơn 200 GB bộ nhớ GPU, không phù hợp cho thiết bị di động hoặc hệ thống biên.
- Thời gian xử lý 100 token trên bộ xử lý Snapdragon 685 với mô hình Llama-2 7B có thể mất tới 80 giây, gây cản trở cho các ứng dụng thời gian thực.
- Chi phí hoạt động cao của LLMs hạn chế khả năng sử dụng, vì việc tinh chỉnh cho các lĩnh vực chuyên biệt cần nguồn lực lớn.
- Các phương pháp hiện tại như API đám mây, nhóm dữ liệu và cắt tỉa mô hình không hoàn toàn giải quyết vấn đề độ trễ và quyền riêng tư.
- Nghiên cứu từ Đại học Pennsylvania, UTHealth Houston, Amazon và Rensselaer Polytechnic Institute đã khảo sát về SLMs, phát triển một khung hệ thống để cân bằng hiệu quả với khả năng tương tự LLMs.
- Các kiến trúc nhỏ gọn và kỹ thuật xử lý dữ liệu tiên tiến giúp SLMs hoạt động trong môi trường tiết kiệm năng lượng.
- Các cải tiến như attention theo nhóm (GQA), attention đa đầu (MLA), và Flash Attention cải thiện hiệu suất mà không cần bộ nhớ lớn.
- Kỹ thuật chia sẻ tham số và thích ứng thấp hạng đảm bảo SLMs có thể xử lý các tác vụ phức tạp trong các lĩnh vực như y tế, tài chính.
- Kết quả thực nghiệm cho thấy SLMs có thể đạt được hiệu suất gần tương đương LLMs với độ trễ và mức sử dụng bộ nhớ thấp hơn.
- Trong các bài kiểm tra, SLMs cho thấy giảm độ trễ và cải thiện quyền riêng tư dữ liệu nhờ xử lý cục bộ.
- SLMs có thể duy trì tới 90% độ chính xác của LLMs trong các ứng dụng chuyên biệt với yêu cầu phần cứng thấp hơn.
📌 Nghiên cứu về mô hình ngôn ngữ nhỏ cung cấp một khung khả thi, giải quyết các vấn đề trong việc triển khai LLMs tại những môi trường hạn chế. SLMs hứa hẹn mở rộng khả năng xử lý ngôn ngữ tiên tiến vào thiết bị tiêu tốn ít năng lượng, đảm bảo tính khả thi và bền vững trong các ứng dụng thực tế.
https://www.marktechpost.com/2024/11/09/a-deep-dive-into-small-language-models-efficient-alternatives-to-large-language-models-for-real-time-processing-and-specialized-tasks/
- Anthropic vừa ra mắt mô hình Claude 3.5 Haiku trên nền tảng Amazon Bedrock, đánh dấu xu hướng phát triển các mô hình ngôn ngữ lớn theo hướng nhỏ gọn và chính xác hơn
- Các công ty công nghệ lớn đang chuyển hướng sang mô hình AI thu nhỏ:
+ Google với Gemini Nano
+ OpenAI với o1 mini và 4o mini
+ Anthropic với Claude Haiku
- Tầm nhìn của Richard Feynman từ năm 1959 về việc thu nhỏ và tối ưu hóa đang ứng nghiệm trong xu hướng AI hiện nay:
+ Khả năng nén và lưu trữ dữ liệu lớn trong không gian nhỏ
+ Thao tác chính xác ở cấp độ nhỏ nhất
+ Học hỏi từ các hệ thống sinh học
- AlphaFold 3 sử dụng deep learning để giải mã cấu trúc protein, mở ra tiềm năng trong:
+ Phát hiện thuốc mới
+ Sinh học tổng hợp
+ Hiểu biết về cơ chế phân tử
- Nvidia công bố kiến trúc tham chiếu cho các nhà máy AI - trung tâm dữ liệu quy mô lớn nhằm:
+ Hỗ trợ khối lượng công việc AI chuyên sâu
+ Cung cấp framework tiêu chuẩn cho việc xử lý dữ liệu
+ Đáp ứng nhu cầu tính toán ngày càng tăng
📌 Xu hướng AI thu nhỏ như Claude 3.5 Haiku phản ánh tầm nhìn của Feynman về việc tối ưu hóa ở cấp độ nhỏ nhất. Các mô hình này hứa hẹn mang lại hiệu quả cao hơn trong việc xử lý dữ liệu và triển khai AI trên các thiết bị di động, góp phần xây dựng hệ thống AI bền vững hơn trong tương lai.
https://www.forbes.com/sites/geruiwang/2024/11/06/claude-ai-35-haiku-dropped-how-reading-feynman-reveals-ai-trends/
- Meta AI vừa công bố phiên bản nguồn mở của MobileLLM, bộ mô hình ngôn ngữ được tối ưu hóa cho thiết bị di động, với mã nguồn và trọng số có sẵn trên Hugging Face
- Mô hình hiện chỉ được cấp phép Creative Commons 4.0 phi thương mại, giới hạn việc sử dụng trong nghiên cứu
- MobileLLM có số lượng tham số từ 125 triệu đến 1 tỷ, được thiết kế phù hợp với bộ nhớ và năng lượng hạn chế của phần cứng di động
- Kiến trúc độc đáo của MobileLLM tập trung vào chiều sâu thay vì chiều rộng, khác biệt so với quy luật mở rộng AI truyền thống
- Mô hình tích hợp nhiều cải tiến quan trọng:
• Ưu tiên chiều sâu hơn chiều rộng
• Kỹ thuật chia sẻ embedding
• Cơ chế chú ý truy vấn theo nhóm
• Chia sẻ trọng số theo khối tức thì
- Phiên bản 350 triệu tham số đạt hiệu suất ngang bằng với Meta Llama-2 7B trong việc gọi API
- MobileLLM được tối ưu hóa cho thiết bị có bộ nhớ 6-12 GB, phù hợp với smartphone phổ biến như iPhone và Google Pixel
- Mô hình 125 triệu và 350 triệu tham số cải thiện độ chính xác lần lượt 2,7% và 4,3% so với các mô hình tốt nhất trước đây trong các tác vụ zero-shot
📌 Meta AI đã tạo bước đột phá với MobileLLM - mô hình ngôn ngữ hiệu quả cao chạy trên thiết bị di động. Với kiến trúc sâu và mỏng độc đáo, phiên bản 350 triệu tham số đạt hiệu suất ngang Meta Llama-2 7B, mở ra tiềm năng mới cho AI trên thiết bị cầm tay.
https://venturebeat.com/ai/meta-makes-its-mobilellm-open-for-researchers-posting-full-weights/
• Embedding văn bản đóng vai trò quan trọng trong xử lý ngôn ngữ tự nhiên (NLP), chuyển đổi văn bản thành vector số để máy tính có thể hiểu và xử lý
• Thách thức lớn nhất là việc tạo ra lượng lớn dữ liệu huấn luyện chất lượng cao, khi các phương pháp hiện tại phụ thuộc vào các mô hình độc quyền như GPT-4 với chi phí rất cao
• Các nhà nghiên cứu từ Trường Trí tuệ nhân tạo Gaoling và Microsoft đã phát triển framework SPEED, sử dụng mô hình nguồn mở nhỏ để tạo dữ liệu embedding chất lượng cao
• SPEED hoạt động thông qua 3 thành phần chính:
- Generator cấp thấp tạo dữ liệu tổng hợp ban đầu
- Generator cấp cao tối ưu chất lượng dựa trên tín hiệu đánh giá từ GPT-4
- Data revisor tinh chỉnh và nâng cao chất lượng đầu ra
• Kết quả ấn tượng của SPEED:
- Chỉ sử dụng 45.000 lệnh gọi API so với 500.000 của E5mistral
- Tiết kiệm hơn 90% chi phí
- Điểm trung bình 63,4 trên bộ đánh giá MTEB
- Hiệu suất cao trong nhiều tác vụ:
+ Phân loại: 78,4
+ Phân cụm: 49,3
+ Phân loại cặp: 88,2
+ Xếp hạng lại: 60,8
+ Truy xuất: 56,5
+ So sánh ngữ nghĩa: 85,5
+ Tóm tắt: 31,1
📌 Framework SPEED của Microsoft Asia đã tạo ra bước đột phá trong việc tạo dữ liệu embedding chất lượng cao với chi phí thấp, tiết kiệm 90% chi phí so với phương pháp truyền thống, đạt điểm trung bình 63,4 trên MTEB và hoạt động hiệu quả trên nhiều tác vụ NLP khác nhau.
https://www.marktechpost.com/2024/10/28/microsoft-asia-research-introduces-speed-an-ai-framework-that-aligns-open-source-small-models-8b-to-efficiently-generate-large-scale-synthetic-embedding-data/
• LLMWare.ai công bố ra mắt Model Depot trên Hugging Face - bộ sưu tập hơn 100 mô hình ngôn ngữ nhỏ (SLM) được tối ưu hóa cho máy tính Intel
• Model Depot hỗ trợ nhiều ứng dụng: chat, lập trình, toán học, function calling và embedding models, được định dạng theo OpenVINO và ONNX của Intel
• Kết quả thử nghiệm trên laptop Dell với chip Intel Core Ultra 9 cho thấy:
- Mô hình BLING-Tiny-Llama 1,1B tham số chạy nhanh hơn 7,6 lần so với PyTorch
- Nhanh hơn 7,5 lần so với định dạng GGUF
• Model Depot tích hợp các mô hình phổ biến:
- Microsoft Phi-3
- Mistal
- Llama
- Yi
- Qwen
- Các mô hình chuyên biệt của LLMWare: SLIM, DRAGON, BLING
• LLMWare vừa công bố hợp tác chiến lược với Intel để ra mắt Model HQ (phiên bản preview) với các tính năng:
- Bộ công cụ no-code để chạy và triển khai ứng dụng AI
- Tích hợp sẵn UI/UX
- Chatbot và tìm kiếm/phân tích tài liệu
- Các tính năng bảo mật: Model Vault, Model Safety Monitor, bộ lọc quyền riêng tư
• Ưu điểm của việc triển khai AI trên máy tính cá nhân:
- Tăng cường bảo mật dữ liệu
- Không cần sao chép dữ liệu ra hệ thống bên ngoài
- Tiết kiệm chi phí đáng kể
- Triển khai được nhiều ứng dụng AI nhẹ cục bộ
📌 Model Depot cung cấp hơn 100 mô hình ngôn ngữ nhỏ tối ưu cho máy tính Intel, cho phép xử lý nhanh hơn 7,6 lần so với các định dạng thông thường. Đây là bước tiến quan trọng trong việc phổ cập AI an toàn, riêng tư và phi tập trung cho doanh nghiệp.
https://www.marktechpost.com/2024/10/28/llmware-introduces-model-depot-an-extensive-collection-of-small-language-models-slms-for-intel-pcs/
• Hawkish 8B là mô hình AI mới trong lĩnh vực tài chính, được phát triển với 8 tỷ tham số để xử lý các thách thức về tài chính và toán học
• Mô hình được huấn luyện trên 50 triệu token chất lượng cao về các chủ đề tài chính, bao gồm kinh tế học, thu nhập cố định, cổ phiếu, tài chính doanh nghiệp, chứng khoán phái sinh và quản lý danh mục đầu tư
• Dữ liệu huấn luyện được tuyển chọn từ hơn 250 triệu token từ các nguồn công khai, kết hợp với bộ hướng dẫn về lập trình, kiến thức chung, xử lý ngôn ngữ tự nhiên và đối thoại
• Kiến trúc transformer của Hawkish 8B được tối ưu hóa cho suy luận tài chính và các tác vụ định lượng, cải thiện đáng kể khả năng suy luận số học, đại số và xử lý ngôn ngữ tự nhiên trong lĩnh vực tài chính
• Mô hình đã vượt qua kỳ thi CFA cấp 1 - một cột mốc quan trọng trong lĩnh vực tài chính, bao gồm các chủ đề như phương pháp định lượng, kinh tế học và quản lý danh mục đầu tư
• Trong các bài kiểm tra gần đây, Hawkish 8B vượt trội hơn Meta Llama-3.1-8B-Instruct:
- Cao hơn 12% trong các bài kiểm tra tài chính chuyên biệt
- Cao hơn 15% trong các câu hỏi liên quan đến toán học
• Mô hình có khả năng tokenization được tối ưu hóa để xử lý thuật ngữ tài chính và biểu thức toán học, tạo lợi thế đáng kể so với các mô hình thông thường
📌 Hawkish 8B đánh dấu bước tiến quan trọng trong ứng dụng AI cho lĩnh vực tài chính với 8 tỷ tham số, được huấn luyện trên 50 triệu token chất lượng cao, vượt qua CFA cấp 1 và vượt trội hơn Meta Llama-3.1-8B-Instruct 12-15% trong các bài kiểm tra chuyên môn.
https://www.marktechpost.com/2024/10/26/meet-hawkish-8b-a-new-financial-domain-model-that-can-pass-cfa-level-1-and-outperform-meta-llama-3-1-8b-instruct-in-math-finance-benchmarks/
• Meta AI vừa phát hành phiên bản Llama 3.2 được tối ưu hóa với hai biến thể 1B và 3B, là những mô hình Llama đầu tiên đủ nhẹ để chạy trên nhiều thiết bị di động phổ biến
• Hai kỹ thuật lượng tử hóa được áp dụng:
- Quantization-Aware Training (QAT) với bộ điều hợp LoRA tập trung vào độ chính xác
- SpinQuant: phương pháp lượng tử hóa sau huấn luyện tập trung vào tính di động
• Những cải tiến đáng kể:
- Tăng tốc độ xử lý lên 2-4 lần
- Giảm 56% kích thước mô hình
- Giảm 41% mức sử dụng bộ nhớ so với định dạng BF16 gốc
• Kỹ thuật lượng tử hóa chuyển đổi số dấu phẩy động 32-bit thành biểu diễn 8-bit và 4-bit, giúp mô hình hoạt động hiệu quả với ít bộ nhớ và năng lực tính toán hơn
• Meta AI hợp tác với Qualcomm và MediaTek để triển khai mô hình trên các chip SoC với CPU Arm
• Kết quả thử nghiệm ban đầu cho thấy hiệu suất đạt khoảng 95% so với mô hình Llama 3 đầy đủ nhưng giảm 60% mức sử dụng bộ nhớ
• Framework PyTorch's ExecuTorch hỗ trợ suy luận sử dụng cả hai kỹ thuật lượng tử hóa
📌 Meta AI đã thu nhỏ thành công mô hình Llama 3.2 với hiệu suất đạt 95% nhưng giảm 56% kích thước và tăng tốc độ xử lý lên 2-4 lần. Đây là bước tiến quan trọng giúp phổ cập AI đến nhiều đối tượng hơn, đặc biệt trên các thiết bị di động thông thường.
https://www.marktechpost.com/2024/10/24/meta-ai-releases-new-quantized-versions-of-llama-3-2-1b-3b-delivering-up-to-2-4x-increases-in-inference-speed-and-56-reduction-in-model-size/
📌 Differentiable Adaptive Merging (DAM) đang định hình tương lai hợp nhất mô hình AI, giúp doanh nghiệp tận dụng mô hình đã huấn luyện mà không cần tái đầu tư lớn. Với hiệu quả vượt trội và khả năng giảm chi phí, DAM hứa hẹn thúc đẩy AI tạo sinh trở nên phổ biến hơn trong doanh nghiệp.
https://venturebeat.com/ai/differentiable-adaptive-merging-is-accelerating-slms-for-enterprises/
• Mistral, startup AI của Pháp, vừa công bố dòng mô hình AI tạo sinh đầu tiên được thiết kế để chạy trên các thiết bị biên như laptop và điện thoại.
• Dòng mô hình mới có tên "Les Ministraux", bao gồm 2 mô hình: Ministral 3B và Ministral 8B.
• Cả hai mô hình đều có cửa sổ ngữ cảnh 128.000 token, tương đương với khả năng xử lý nội dung dài khoảng 50 trang sách.
• Les Ministraux được phát triển nhằm đáp ứng nhu cầu suy luận cục bộ, đảm bảo quyền riêng tư cho các ứng dụng quan trọng như dịch thuật trên thiết bị, trợ lý thông minh không cần internet, phân tích cục bộ và robot tự hành.
• Ministral 8B đã có sẵn để tải về, nhưng chỉ dành cho mục đích nghiên cứu. Các nhà phát triển và doanh nghiệp muốn triển khai Ministral 8B hoặc Ministral 3B cần liên hệ Mistral để được cấp giấy phép thương mại.
• Các nhà phát triển có thể sử dụng Ministral 3B và Ministral 8B thông qua nền tảng đám mây Le Platforme của Mistral và các đám mây đối tác khác trong những tuần tới.
• Giá sử dụng: Ministral 8B có giá 10 cent cho mỗi triệu token đầu ra/đầu vào (khoảng 750.000 từ), trong khi Ministral 3B có giá 4 cent cho mỗi triệu token.
• Xu hướng hướng tới các mô hình nhỏ gọn đang gia tăng, với các ưu điểm như chi phí thấp hơn, nhanh hơn trong việc huấn luyện, tinh chỉnh và chạy so với các mô hình lớn hơn.
• Mistral tuyên bố Ministral 3B và Ministral 8B vượt trội hơn các mô hình Llama và Gemma tương đương, cũng như mô hình Mistral 7B của chính họ, trong nhiều bài kiểm tra AI đánh giá khả năng tuân theo hướng dẫn và giải quyết vấn đề.
• Mistral, có trụ sở tại Paris, gần đây đã huy động được 640 triệu USD vốn đầu tư mạo hiểm và đang dần mở rộng danh mục sản phẩm AI của mình.
• Trong vài tháng qua, công ty đã ra mắt dịch vụ miễn phí cho các nhà phát triển để thử nghiệm mô hình, SDK cho phép khách hàng tinh chỉnh các mô hình đó, và các mô hình mới bao gồm mô hình tạo sinh cho mã có tên Codestral.
• Mistral được đồng sáng lập bởi các cựu nhân viên của Meta và DeepMind của Google, với sứ mệnh tạo ra các mô hình hàng đầu có thể cạnh tranh với các mô hình hiệu suất cao nhất hiện nay như GPT-4 của OpenAI và Claude của Anthropic.
• Mặc dù việc kiếm tiền vẫn còn là thách thức, Mistral được cho là đã bắt đầu tạo ra doanh thu vào mùa hè này.
📌 Mistral ra mắt Les Ministraux - mô hình AI nhỏ gọn cho thiết bị cạnh, với 2 phiên bản 3B và 8B. Mô hình có cửa sổ ngữ cảnh 128.000 token, giá từ 4-10 cent/triệu token, vượt trội so với đối thủ trong các bài kiểm tra AI. Mistral tiếp tục mở rộng danh mục sản phẩm sau khi huy động 640 triệu USD vốn.
https://techcrunch.com/2024/10/16/mistral-releases-new-ai-models-optimized-for-edge-devices/
• Google vừa ra mắt mô hình "gemma-2-2b-jpn-it", thành viên mới trong họ mô hình ngôn ngữ Gemma, được thiết kế đặc biệt cho tiếng Nhật.
• Đây là mô hình text-to-text, chỉ giải mã với trọng số mở, có thể tinh chỉnh cho nhiều tác vụ tạo văn bản như trả lời câu hỏi, tóm tắt và suy luận.
• Mô hình có 2,61 tỷ tham số, sử dụng kiểu tensor BF16 và lấy cảm hứng kiến trúc từ họ mô hình Gemini của Google.
• Gemma-2-2b-jpn-it tương thích với phần cứng Tensor Processing Unit (TPU) mới nhất của Google, cụ thể là TPUv5p, giúp tăng tốc độ đào tạo và hiệu suất mô hình.
• Về phần mềm, mô hình sử dụng các framework JAX và ML Pathways để đào tạo, tối ưu hóa cho ứng dụng học máy hiệu năng cao.
• Ứng dụng của mô hình rất đa dạng, bao gồm tạo nội dung, giao tiếp, tóm tắt văn bản, nghiên cứu xử lý ngôn ngữ tự nhiên và hỗ trợ học ngôn ngữ tương tác.
• Mô hình có thể tạo ra các định dạng văn bản sáng tạo như thơ, kịch bản, mã, bản sao tiếp thị và phản hồi chatbot.
• Tuy nhiên, hiệu suất của mô hình phụ thuộc vào sự đa dạng và chất lượng của dữ liệu đào tạo. Nó có thể tạo ra các phát biểu sự thật không chính xác hoặc lỗi thời khi xử lý các truy vấn phức tạp.
• Google đã thực hiện đánh giá nghiêm ngặt để giải quyết các vấn đề liên quan đến an toàn nội dung, tác hại đại diện và ghi nhớ dữ liệu đào tạo.
• Các biện pháp giảm thiểu rủi ro bao gồm kỹ thuật lọc để loại bỏ nội dung có hại, thực thi hướng dẫn an toàn nội dung và thiết lập khung minh bạch và trách nhiệm giải trình.
📌 Google ra mắt Gemma-2-JPN, mô hình AI 2,61 tỷ tham số cho tiếng Nhật. Mô hình mở này có khả năng đa dạng từ tạo nội dung đến nghiên cứu NLP, tương thích với TPUv5p. Google cũng chú trọng đánh giá và giảm thiểu rủi ro đạo đức.
https://www.marktechpost.com/2024/10/05/google-releases-gemma-2-jpn-a-2b-ai-model-fine-tuned-on-japanese-text/
• Viện Allen for Artificial Intelligence (Ai2) vừa công bố dòng mô hình AI đa phương thức mã nguồn mở mới có tên Molmo.
• Molmo có kích thước nhỏ hơn 10 lần so với GPT-4o của OpenAI nhưng hiệu suất tương đương.
• Các mô hình Molmo có từ 1 tỷ đến 72 tỷ tham số, trong khi GPT-4o ước tính có hơn 1 nghìn tỷ tham số.
• Ai2 tập trung vào chất lượng dữ liệu thay vì số lượng. Họ sử dụng khoảng 700.000 hình ảnh và 1,3 triệu chú thích, ít hơn 1.000 lần so với các mô hình độc quyền.
• Thay vì viết chú thích, nhóm nghiên cứu yêu cầu người chú thích ghi âm mô tả bằng lời nói 60-90 giây cho mỗi hình ảnh, sau đó chuyển thành văn bản và chuẩn hóa.
• Mô hình lớn nhất Molmo 72B có hiệu suất tương đương hoặc vượt trội hơn các mô hình hàng đầu như GPT-4o, Claude 3.5 Sonnet và Gemini 1.5 Pro trên 11 tiêu chuẩn học thuật.
• Molmo có khả năng chỉ ra các đối tượng trong hình ảnh, hữu ích cho việc phát triển AI agent và robot.
• Molmo là mã nguồn mở với giấy phép Apache 2.0, cho phép các nhà phát triển sửa đổi và thương mại hóa sản phẩm với ít hạn chế.
• Mô hình lớn nhất của Molmo dựa trên Qwen2 72B của Alibaba Cloud, nhưng Ai2 công bố cả bộ dữ liệu và mã nguồn để tạo khả năng đa phương thức.
• Molmo nhắm đến các nhà nghiên cứu, nhà phát triển ứng dụng và những người không quen với các mô hình lớn.
• Các mô hình mã nguồn mở như Molmo đang trở thành đối thủ cạnh tranh thực sự cho các công ty đang huy động hàng tỷ đô la để phát triển sản phẩm AI.
📌 Molmo của Ai2 chứng minh mô hình AI nhỏ gọn, mã nguồn mở có thể cạnh tranh với các mô hình lớn độc quyền. Với kích thước nhỏ hơn 10 lần, sử dụng 1.000 lần ít dữ liệu hơn nhưng hiệu suất tương đương GPT-4o, Molmo mở ra tiềm năng phát triển AI hiệu quả và dễ tiếp cận hơn.
https://singularityhub.com/2024/10/04/these-mini-ai-models-match-openai-with-1000-times-less-data/
• Mô hình ngôn ngữ nhỏ (SLM) đang trở thành tâm điểm trong lĩnh vực xử lý ngôn ngữ tự nhiên, hướng tới việc đưa trí tuệ nhân tạo chất lượng cao lên các thiết bị hàng ngày.
• SLM thường có từ 100 triệu đến 5 tỷ tham số, nhỏ hơn nhiều so với mô hình ngôn ngữ lớn (LLM), nhưng vẫn có thể thực hiện các tác vụ ngôn ngữ phức tạp một cách hiệu quả.
• Nghiên cứu tập trung vào việc tối ưu hóa mô hình AI cho các thiết bị có tài nguyên tính toán hạn chế như điện thoại thông minh, máy tính bảng và thiết bị đeo.
• Các phương pháp như cắt tỉa mô hình, chưng cất kiến thức và lượng tử hóa được sử dụng để giảm độ phức tạp của mô hình lớn mà không ảnh hưởng đến hiệu suất.
• Nghiên cứu từ Đại học Bưu chính Viễn thông Bắc Kinh và các đối tác giới thiệu thiết kế kiến trúc mới cho SLM, tập trung vào mô hình transformer chỉ có bộ giải mã.
• Các cải tiến bao gồm cơ chế attention đa truy vấn và mạng nơ-ron feed-forward có cổng (FFN), giúp giảm bộ nhớ và tăng hiệu quả xử lý.
• Kiến trúc mới sử dụng attention nhóm truy vấn để giảm số lượng nhóm truy vấn mà vẫn duy trì sự đa dạng của attention.
• SiLU (Sigmoid Linear Unit) được sử dụng làm hàm kích hoạt, cho thấy cải thiện đáng kể trong xử lý các tác vụ ngôn ngữ.
• Kỹ thuật bù phi tuyến tính được áp dụng để giải quyết vấn đề sụp đổ đặc trưng thường gặp ở các mô hình nhỏ.
• Mô hình Phi-3 mini đạt độ chính xác cao hơn 14,5% trong các tác vụ lập luận toán học so với LLaMA 3.1 - một mô hình lớn với 7 tỷ tham số.
• Trong các tác vụ lập luận thông thường, họ mô hình Phi vượt trội so với nhiều mô hình hàng đầu, đạt độ chính xác 67,6%.
• Mô hình Phi-3 đạt độ chính xác 72,4% trong các tác vụ giải quyết vấn đề, đứng trong top các SLM hiệu suất cao.
• Các mô hình được thử nghiệm trên nhiều thiết bị biên như Jetson Orin NX và điện thoại thông minh cao cấp, cho thấy giảm đáng kể độ trễ suy luận và sử dụng bộ nhớ.
• Mô hình Qwen-2 1.5B giảm độ trễ suy luận hơn 50%, trở thành một trong những mô hình hiệu quả nhất được thử nghiệm.
• OpenELM-3B sử dụng ít hơn 30% bộ nhớ so với các mô hình khác có số lượng tham số tương tự.
📌 SLM đang mở ra tương lai cho AI hiệu quả và dễ tiếp cận trên các thiết bị hàng ngày. Với kiến trúc sáng tạo như attention nhóm truy vấn và FFN có cổng, các mô hình nhỏ như Phi-3 đã vượt trội hơn cả LLM trong nhiều tác vụ, đồng thời giảm đáng kể độ trễ và sử dụng bộ nhớ trên thiết bị cạnh.
https://www.marktechpost.com/2024/09/26/a-comprehensive-survey-of-small-language-models-architectures-datasets-and-training-algorithms/
• Salesforce AI Research giới thiệu SFR-Judge - bộ 3 mô hình đánh giá dựa trên LLM gồm 8 tỷ (8B), 12 tỷ (12B) và 70 tỷ (70B) tham số, được xây dựng từ Meta Llama 3 và Mistral NeMO.
• SFR-Judge được thiết kế để thực hiện nhiều tác vụ đánh giá như so sánh cặp, xếp hạng đơn lẻ và phân loại nhị phân, nhằm hỗ trợ các nhóm nghiên cứu đánh giá nhanh chóng và hiệu quả các LLM mới.
• Các mô hình được huấn luyện bằng phương pháp Direct Preference Optimization (DPO), cho phép học từ các ví dụ tích cực và tiêu cực để giảm thiểu thiên kiến và đảm bảo đánh giá nhất quán.
• SFR-Judge đạt hiệu suất vượt trội trên 10/13 điểm chuẩn, bao gồm độ chính xác 92,7% trên RewardBench - lần đầu tiên một mô hình đánh giá tạo sinh vượt ngưỡng 90%.
• Phương pháp huấn luyện sử dụng 3 định dạng dữ liệu: Phê bình chuỗi suy luận, Đánh giá tiêu chuẩn và Suy luận phản hồi, giúp tăng cường khả năng phân tích và đánh giá.
• Các thử nghiệm cho thấy SFR-Judge ít thiên kiến hơn đáng kể so với các mô hình cạnh tranh, thể hiện qua hiệu suất trên EvalBiasBench - một điểm chuẩn kiểm tra 6 loại thiên kiến.
• Mô hình thể hiện tính nhất quán cao trong đánh giá cặp đôi trên nhiều điểm chuẩn, cho thấy khả năng đánh giá ổn định ngay cả khi thứ tự phản hồi thay đổi.
• SFR-Judge có thể tạo ra các giải thích chi tiết cho các đánh giá, giúp giảm bớt tính chất "hộp đen" của các đánh giá dựa trên LLM.
• Mô hình có thể cải thiện đầu ra của các mô hình downstream, làm cho nó trở thành một công cụ hiệu quả cho các kịch bản học tăng cường từ phản hồi của con người (RLHF).
📌 SFR-Judge của Salesforce AI Research đánh dấu bước tiến quan trọng trong đánh giá tự động mô hình ngôn ngữ lớn. Với độ chính xác 92,7% trên RewardBench và hiệu suất vượt trội trên 10/13 điểm chuẩn, SFR-Judge thiết lập tiêu chuẩn mới cho đánh giá dựa trên LLM, mở ra cơ hội cải tiến trong đánh giá mô hình tự động.
https://www.marktechpost.com/2024/09/28/salesforce-ai-introduces-sfr-judge-a-family-of-three-judge-models-of-8-billion-parameters-8b-12b-and-70b-size-built-with-meta-llama-3-and-mistral-nemo/
• Một nghiên cứu gần đây đã phân tích toàn diện vai trò của các mô hình ngôn ngữ nhỏ (SLM) trong lĩnh vực AI hiện đại, tập trung vào khả năng, ứng dụng và lợi thế tiềm năng của chúng so với các mô hình lớn hơn.
• Nghiên cứu nhấn mạnh tầm quan trọng của SLM trong các lĩnh vực đòi hỏi hiệu quả và khả năng diễn giải, đồng thời thảo luận về sự phù hợp của chúng trong các tác vụ cụ thể mà các mô hình lớn có thể không thực tế.
• Khi các mô hình ngôn ngữ lớn (LLM) mở rộng quy mô, chi phí tính toán và nhu cầu năng lượng của chúng tăng theo cấp số nhân, khiến chúng ít tiếp cận hơn đối với các nhà nghiên cứu và doanh nghiệp có nguồn lực hạn chế.
• Trong khi đó, các mô hình nhỏ (SM) vẫn được sử dụng rộng rãi trong các ứng dụng thực tế nhưng thường bị đánh giá thấp. Nghiên cứu này khám phá mối quan hệ giữa LLM và SLM, xem xét cách chúng có thể hợp tác và cạnh tranh, nhằm cung cấp thông tin chi tiết để tối ưu hóa hiệu quả tính toán trong các hệ thống AI.
• Các kỹ thuật đào tạo sáng tạo đang được phát triển cho SLM, đặc biệt là việc sử dụng các mô hình lớn để tạo ra dữ liệu đào tạo đa dạng, cụ thể cho từng lĩnh vực.
• SLM cũng đang phát triển thành các hệ thống đa phương thức với khả năng lưu trữ và suy luận cục bộ.
• Các mô hình nguồn mở như Phi-3.5 cho thấy sức mạnh tiềm năng của các mô hình nhỏ hơn này. Ngoài ra, các tiến bộ như lượng tử hóa mô hình đang mở rộng phạm vi các tùy chọn lưu trữ, làm cho SLM dễ tiếp cận hơn cho nhiều ứng dụng khác nhau trong khi vẫn duy trì hiệu suất cao.
• SLM được đào tạo để thay đổi hành vi của mô hình thay vì trang bị cho chúng kiến thức cụ thể hoặc làm cho mô hình trở nên nặng về kiến thức.
• LLM và SLM có thể hợp tác để cân bằng hiệu suất và hiệu quả - LLM quản lý các tác vụ phức tạp trong khi SLM xử lý các tác vụ tập trung hơn, hiệu quả về tài nguyên.
• Tuy nhiên, SLM thường vượt trội hơn LLM trong môi trường hạn chế hoặc các tác vụ đòi hỏi khả năng diễn giải cao do tính đơn giản, chi phí thấp hơn và khả năng tiếp cận của chúng. Lựa chọn phụ thuộc vào nhu cầu cụ thể của tác vụ, với SLM xuất sắc trong các ứng dụng chuyên biệt.
• Sự hợp tác giữa LLM và các mô hình nhỏ hơn có thể cân bằng sức mạnh và hiệu quả, dẫn đến các hệ thống hiệu quả về tài nguyên, có khả năng mở rộng, dễ diễn giải và tiết kiệm chi phí, đồng thời vẫn duy trì hiệu suất cao và tính linh hoạt.
• Các mô hình nhỏ hơn mang lại những lợi thế độc đáo như tính đơn giản, chi phí thấp hơn và khả năng diễn giải tốt hơn, khiến chúng phù hợp với các thị trường ngách.
• LLM đã thể hiện hiệu suất xuất sắc trong nhiều tác vụ xử lý ngôn ngữ tự nhiên nhờ số lượng tham số lớn và được đào tạo trên các bộ dữ liệu đa dạng. Mặc dù các mô hình nhỏ hơn thường hoạt động ở mức thấp hơn, chúng vẫn có thể đạt được kết quả tương tự khi được cải thiện bằng các kỹ thuật như chưng cất kiến thức.
• LLM có tính linh hoạt cao, có thể xử lý nhiều loại tác vụ khác nhau chỉ với một vài ví dụ đào tạo. Ngược lại, các mô hình nhỏ hơn thường chuyên biệt hơn và các nghiên cứu cho thấy việc tinh chỉnh chúng trên các bộ dữ liệu dành riêng cho lĩnh vực đôi khi có thể dẫn đến hiệu suất tốt hơn so với LLM chung trên các tác vụ cụ thể.
• LLM đòi hỏi tài nguyên tính toán đáng kể cho cả đào tạo và suy luận, dẫn đến chi phí cao và độ trễ lớn, khiến chúng ít phù hợp hơn cho các ứng dụng thời gian thực, chẳng hạn như truy xuất thông tin, hoặc trong môi trường hạn chế tài nguyên như các thiết bị biên. Ngược lại, các mô hình nhỏ hơn yêu cầu ít dữ liệu đào tạo và sức mạnh tính toán hơn, cung cấp hiệu suất cạnh tranh trong khi giảm đáng kể yêu cầu tài nguyên.
• Các mô hình nhỏ hơn, đơn giản hơn thường minh bạch hơn và dễ diễn giải hơn so với các mô hình lớn hơn, phức tạp hơn. Trong các lĩnh vực như chăm sóc sức khỏe, tài chính và luật pháp, các mô hình nhỏ hơn thường được ưa chuộng vì quyết định của chúng cần được hiểu dễ dàng bởi những người không phải chuyên gia, chẳng hạn như bác sĩ hoặc nhà phân tích tài chính.
📌 Mô hình ngôn ngữ nhỏ (SLM) đóng vai trò quan trọng trong kỷ nguyên AI, cung cấp hiệu quả và khả năng diễn giải cao. Chúng có thể hợp tác với mô hình lớn (LLM) để tối ưu hóa hiệu suất, đồng thời vượt trội trong các môi trường hạn chế và ứng dụng chuyên biệt. SLM mang lại lợi thế về chi phí, tính đơn giản và khả năng tiếp cận, phù hợp cho nhiều lĩnh vực khác nhau.
https://cobusgreyling.substack.com/p/the-role-of-small-models-in-the-llm
• AMD vừa giới thiệu mô hình ngôn ngữ mới AMD-135M (hay AMD-Llama-135M), dựa trên kiến trúc LLaMA2 với 135 triệu tham số.
• Mô hình được tối ưu hóa cho GPU MI250 mới nhất của AMD, đánh dấu bước tiến quan trọng trong nỗ lực của AMD trong lĩnh vực AI.
• AMD-135M có cấu trúc gồm 12 lớp, 12 đầu chú ý, kích thước ẩn 768, sử dụng hàm kích hoạt Swiglu và chuẩn hóa lớp RMSNorm.
• Mô hình được huấn luyện trước trên hai bộ dữ liệu chính: SlimPajama (phiên bản đã loại bỏ trùng lặp của RedPajama) và Project Gutenberg.
• AMD-135M tích hợp với thư viện Hugging Face Transformers, giúp dễ dàng triển khai và sử dụng.
• Kích thước cửa sổ ngữ cảnh là 2048, cho phép xử lý hiệu quả các chuỗi đầu vào lớn hơn.
• Cấu hình huấn luyện sử dụng tốc độ học 6e-4 với lịch trình tốc độ học cosine, trải qua nhiều epoch.
• AMD-135M tương thích với giải mã suy đoán cho CodeLlama của AMD, mở rộng khả năng sử dụng cho các tác vụ tạo mã.
• Hiệu suất của mô hình được đánh giá bằng lm-evaluation-harness trên nhiều bài kiểm tra NLP như SciQ, WinoGrande và PIQA.
• Trên bộ dữ liệu Humaneval, AMD-135M đạt tỷ lệ vượt qua khoảng 32,31% khi sử dụng GPU MI250.
• Mô hình có thể được triển khai dễ dàng thông qua các module LlamaForCausalLM và AutoTokenizer của Hugging Face Transformers.
• AMD-135M được kỳ vọng sẽ là một đối thủ cạnh tranh mạnh mẽ trong lĩnh vực mô hình AI, phù hợp cho cả nghiên cứu và ứng dụng thương mại.
📌 AMD-135M là mô hình ngôn ngữ 135 triệu tham số dựa trên LLaMA2, tối ưu cho GPU MI250. Được huấn luyện trên SlimPajama và Project Gutenberg, mô hình đạt hiệu suất cao trên nhiều bài kiểm tra NLP, với tỷ lệ vượt qua 32,31% trên Humaneval, thể hiện tiềm năng lớn trong xử lý ngôn ngữ tự nhiên.
https://www.marktechpost.com/2024/09/28/amd-releases-amd-135m-amds-first-small-language-model-series-trained-from-scratch-on-amd-instinct-mi250-accelerators-utilizing-670b-tokens/
• Viện Allen for Artificial Intelligence (Ai2) công bố dòng mô hình ngôn ngữ đa phương thức nguồn mở Molmo, có hiệu suất ngang bằng các mô hình độc quyền hàng đầu của OpenAI, Google và Anthropic.
• Mô hình Molmo lớn nhất với 72 tỷ tham số vượt trội GPT-4o (ước tính trên 1 nghìn tỷ tham số) trong các bài kiểm tra về hiểu hình ảnh, biểu đồ và tài liệu.
• Mô hình Molmo nhỏ hơn với 7 tỷ tham số có hiệu suất gần bằng mô hình tiên tiến nhất của OpenAI.
• Molmo được huấn luyện trên tập dữ liệu nhỏ hơn và được tuyển chọn kỹ lưỡng hơn, chỉ gồm 600.000 hình ảnh, so với hàng tỷ mẫu dữ liệu của các mô hình lớn khác.
• Ai2 sử dụng phương pháp ghi chú hình ảnh chi tiết bằng cách yêu cầu người chú thích mô tả bằng lời nói, sau đó chuyển đổi thành dữ liệu bằng AI.
• Phương pháp này giúp giảm đáng kể yêu cầu về sức mạnh tính toán và thời gian huấn luyện.
• Molmo có khả năng "chỉ trỏ", có thể phân tích các phần tử trong hình ảnh bằng cách xác định các pixel trả lời truy vấn.
• Khả năng này rất hữu ích cho việc xây dựng các agent web tinh vi hơn có thể tương tác với thế giới thực.
• Ai2 cho rằng các mô hình nguồn mở như Molmo có thể mang lại lợi nhuận tốt hơn so với các mô hình độc quyền đắt tiền.
• Molmo sẽ được cung cấp cho các nhà phát triển trên trang web Hugging Face, mặc dù một số yếu tố của mô hình mạnh nhất vẫn được bảo vệ.
• Các chuyên gia như Percy Liang và Yacine Jernite đánh giá cao tiềm năng của phương pháp huấn luyện trên dữ liệu chất lượng cao để giảm chi phí tính toán.
• Việc phát triển Molmo thể hiện mức độ minh bạch cao hơn so với các công ty AI khác trong ngành.
• Ý nghĩa thực sự của Molmo sẽ nằm ở các ứng dụng mà các nhà phát triển xây dựng dựa trên nó và cách mọi người cải tiến nó.
📌 Molmo của Ai2 chứng minh tiềm năng của AI nguồn mở, đạt hiệu suất tương đương mô hình lớn với 72 tỷ tham số, sử dụng 600.000 hình ảnh chất lượng cao. Phương pháp huấn luyện hiệu quả giảm chi phí, mở ra cơ hội phát triển ứng dụng AI rộng rãi hơn.
https://www.technologyreview.com/2024/09/25/1104465/a-tiny-new-open-source-ai-model-performs-as-well-as-powerful-big-ones/
#MIT
• Viện AI Allen và Đại học Washington giới thiệu gia đình mô hình ngôn ngữ-thị giác Molmo, một giải pháp hoàn toàn mở về trọng số và dữ liệu.
• Molmo không phụ thuộc vào dữ liệu tổng hợp từ hệ thống độc quyền, mà sử dụng bộ dữ liệu PixMo mới gồm hơn 712.000 hình ảnh và khoảng 1,3 triệu chú thích do con người tạo ra.
• PixMo sử dụng phương pháp sáng tạo yêu cầu người chú thích mô tả chi tiết mọi hình ảnh trong 60-90 giây, thu thập được dữ liệu mô tả chất lượng cao.
• Gia đình Molmo bao gồm các mô hình:
- MolmoE-1B: Sử dụng mô hình ngôn ngữ lớn OLMoE-1B-7B nguồn mở
- Molmo-7B-O: Sử dụng OLMo-7B-1024 nguồn mở
- Molmo-7B-D: Mô hình demo sử dụng Qwen2 7B
- Molmo-72B: Mô hình hiệu suất cao nhất, sử dụng Qwen2 72B
• Molmo-72B vượt trội nhiều hệ thống độc quyền hàng đầu như Gemini 1.5 và Claude 3.5 Sonnet trên 11 benchmark học thuật.
• Trong đánh giá của con người với 15.000 cặp hình ảnh-văn bản, Molmo-72B xếp thứ 2, chỉ sau GPT-4o.
• Molmo-72B đạt điểm cao nhất trong benchmark AndroidControl với độ chính xác 88,7% cho tác vụ cấp thấp và 69,0% cho tác vụ cấp cao.
• MolmoE-1B có hiệu suất gần bằng GPT-4V, là một mô hình nguồn mở hiệu quả và cạnh tranh.
• Molmo sử dụng pipeline đơn giản nhưng mạnh mẽ kết hợp bộ mã hóa thị giác được huấn luyện trước (dựa trên ViT-L/14 CLIP của OpenAI) với mô hình ngôn ngữ.
• Sự thành công của Molmo trong cả đánh giá học thuật và người dùng cho thấy tiềm năng của các mô hình VLM nguồn mở trong việc cạnh tranh và vượt qua các hệ thống độc quyền.
• Việc phát hành các mô hình Molmo cùng bộ dữ liệu PixMo mở đường cho đổi mới và hợp tác trong phát triển mô hình ngôn ngữ-thị giác trong tương lai.
📌 Molmo là gia đình mô hình ngôn ngữ đa phương thức nguồn mở mới từ Viện AI Allen, sử dụng dữ liệu PixMo do con người tạo ra. Molmo-72B vượt trội nhiều hệ thống độc quyền trên 11 benchmark, cho thấy tiềm năng của mô hình nguồn mở trong việc cạnh tranh với các hệ thống hàng đầu mà không cần dữ liệu tổng hợp.
https://www.marktechpost.com/2024/09/26/are-small-language-models-really-the-future-of-language-models-allen-institute-for-artificial-intelligence-ai2-releases-molmo-a-family-of-open-source-multimodal-language-models/
SEO contents:
1. Meta mô tả: Llama 3.2 ra mắt với các mô hình AI nhẹ 1B và 3B cho thiết bị di động, cùng mô hình thị giác 11B và 90B cho ứng dụng đa phương thức, mở ra tiềm năng AI ở cạnh biên và đa nền tảng.
2. Từ khóa meta: Llama 3.2, mô hình AI nhẹ, mô hình thị giác, AI cạnh biên, ứng dụng đa phương thức, Meta AI, nguồn mở
3. Tiêu đề SEO hấp dẫn: Meta tung ra llama 3.2: cuộc cách mạng ai nhẹ và đa năng cho thiết bị di động và ứng dụng thị giác
Tóm tắt chi tiết:
• Meta đã phát hành Llama 3.2, bộ mô hình AI nguồn mở mới bao gồm các mô hình thị giác lớn (11B và 90B) và các mô hình văn bản nhẹ (1B và 3B) cho thiết bị cạnh biên và di động.
• Các mô hình thị giác 11B và 90B được thiết kế cho các tác vụ phức tạp như hiểu tài liệu, định vị hình ảnh và tạo chú thích. Chúng vượt trội so với các mô hình đóng khác trong nhiều bài kiểm tra về hiểu hình ảnh.
• Mô hình văn bản nhẹ 1B và 3B tập trung vào ứng dụng AI cạnh biên, cung cấp hiệu suất tốt cho tóm tắt, làm theo hướng dẫn và viết lại prompt với dấu chân tính toán thấp.
• Tất cả các mô hình đều có độ dài ngữ cảnh token là 128.000, cải thiện đáng kể so với các phiên bản trước.
• Llama 3.2 sử dụng kiến trúc dựa trên bộ điều hợp cho mô hình thị giác, tích hợp bộ mã hóa hình ảnh với mô hình văn bản được đào tạo trước.
• Các mô hình được tối ưu hóa cho cả môi trường tại chỗ và đám mây, với sự hỗ trợ từ các đối tác công nghệ hàng đầu như AWS, Dell, Microsoft Azure, NVIDIA.
• Mô hình 1B đạt điểm 49,3 trên MMLU, trong khi mô hình 3B đạt 63,4. Mô hình thị giác đa phương thức 11B đạt 50,7 trên MMMU, còn mô hình 90B đạt 60,3.
• Các mô hình 1B và 3B được tích hợp đầy đủ với UnslothAI, cho phép tinh chỉnh nhanh hơn 2 lần, suy luận nhanh hơn 2 lần và sử dụng VRAM ít hơn 70%.
• Llama 3.2 sử dụng kỹ thuật cắt tỉa và chưng cất kiến thức để đạt được kích thước mô hình nhỏ trong khi vẫn duy trì hiệu suất cao.
• Các mô hình thị giác được đào tạo trên tập dữ liệu khổng lồ gồm 6 tỷ cặp hình ảnh-văn bản, trang bị cho chúng khả năng đa phương thức mạnh mẽ.
• Kiến trúc thị giác tiên tiến bao gồm các tính năng như chuẩn hóa lớp thông thường cho bộ mã hóa thị giác và bộ nhân cổng áp dụng cho các trạng thái ẩn.
📌 Llama 3.2 của Meta mang đến bước tiến quan trọng trong AI biên và mô hình thị giác. Với 4 biến thể từ 1B đến 90B, hỗ trợ ngữ cảnh 128K token và tích hợp UnslothAI, nó cung cấp giải pháp linh hoạt cho nhiều ứng dụng AI từ thiết bị di động đến đa phương thức phức tạp.
https://www.marktechpost.com/2024/09/25/llama-3-2-released-unlocking-ai-potential-with-1b-and-3b-lightweight-text-models-and-11b-and-90b-vision-models-for-edge-mobile-and-multimodal-ai-applications/
• Mistral AI vừa phát hành Pixtral 12B, một mô hình ngôn ngữ lớn đa phương thức với 12 tỷ tham số, đánh dấu bước tiến quan trọng trong lĩnh vực AI.
• Pixtral 12B có khả năng xử lý và tạo ra nội dung văn bản và hình ảnh, giúp nó trở thành công cụ đa năng cho nhiều ngành công nghiệp khác nhau.
• Mô hình này vượt trội so với các phiên bản tiền nhiệm nhờ khả năng mở rộng và thích ứng tốt hơn trên nhiều nền tảng, từ ứng dụng đám mây đến hệ thống tại chỗ.
• Pixtral 12B được thiết kế để đáp ứng nhu cầu ngày càng tăng về các giải pháp AI mạnh mẽ, hiệu quả và có khả năng mở rộng trong các lĩnh vực như y tế và tiếp thị.
• Với kiến trúc học sâu, Pixtral 12B cung cấp hiệu suất vượt trội trong hiểu ngôn ngữ tự nhiên (NLU), xử lý ngôn ngữ tự nhiên (NLP), nhận dạng hình ảnh và các tác vụ sáng tạo như viết, vẽ và đề xuất thiết kế.
• Mô hình đã được đào tạo trước trên một kho dữ liệu đa dạng gồm văn bản và hình ảnh, cho phép nó nhận biết và hiểu nhiều chủ đề, ngôn ngữ và khái niệm hình ảnh khác nhau.
• Khả năng tinh chỉnh dựa trên bộ dữ liệu cụ thể hoặc yêu cầu của người dùng làm tăng tính linh hoạt của Pixtral 12B, phù hợp cho các doanh nghiệp và tổ chức muốn triển khai AI một cách hiệu quả.
• Trong lĩnh vực y tế, Pixtral 12B có thể nâng cao quy trình chẩn đoán bằng cách kết hợp dữ liệu hình ảnh y tế với hồ sơ bệnh nhân để phân tích toàn diện hơn.
• Các công ty tiếp thị và quảng cáo có thể sử dụng mô hình này để tạo ra các chiến dịch sáng tạo kết hợp nội dung văn bản và hình ảnh, tạo ra thông điệp hấp dẫn và hiệu quả hơn.
• Trong giáo dục, Pixtral 12B có thể tạo ra nội dung học tập bao gồm cả hình ảnh minh họa và giải thích bằng văn bản, đặc biệt hữu ích cho sinh viên trong các lĩnh vực STEM.
• Mô hình cũng có tiềm năng lớn cho các ngành công nghiệp sáng tạo như giải trí, thiết kế và sản xuất truyền thông, hỗ trợ việc brainstorm ý tưởng, tạo kịch bản hoặc thiết kế nội dung hình ảnh dựa trên gợi ý văn bản.
• Mistral AI đã triển khai các biện pháp an toàn và hướng dẫn để đảm bảo Pixtral 12B được sử dụng có trách nhiệm, bao gồm hệ thống lọc mạnh mẽ để phát hiện và ngăn chặn các kết quả có hại.
• Công ty cam kết tiếp tục phát triển lĩnh vực AI đa phương thức, với kế hoạch cải tiến kiến trúc và khả năng của Pixtral 12B, đồng thời khám phá việc tích hợp các loại dữ liệu phức tạp hơn như video và âm thanh trong tương lai.
📌 Pixtral 12B của Mistral AI là bước đột phá trong AI đa phương thức với 12 tỷ tham số, xử lý văn bản và hình ảnh. Mô hình mở ra cơ hội mới cho y tế, giáo dục và tiếp thị, hứa hẹn thúc đẩy sự phát triển của AI đa năng trong tương lai.
https://www.marktechpost.com/2024/09/19/pixtral-12b-released-by-mistral-ai-a-revolutionary-multimodal-ai-model-transforming-industries-with-advanced-language-and-visual-processing-capabilities/
- Mô hình ngôn ngữ lớn (LLMs) đã cách mạng hóa xử lý ngôn ngữ tự nhiên, nhưng mô hình ngôn ngữ nhỏ (SLMs) vẫn có vai trò quan trọng.
- LLMs như GPT đã đạt khoảng 180 triệu người dùng vào tháng 3 năm 2024, nhưng chi phí tính toán và tiêu thụ năng lượng tăng vọt.
- Các mô hình nhỏ như Phi-3.8B và Gemma-2B cho thấy hiệu suất tương đương với ít tham số hơn, thu hút sự quan tâm từ các nhà nghiên cứu.
- Nghiên cứu từ Imperial College London cho thấy BERT-base vẫn được tải xuống nhiều, cho thấy sự phổ biến của SLMs trong thực tế.
- SLMs có thể đạt kết quả tương đương với LLMs thông qua các kỹ thuật như chưng cất tri thức và thường vượt trội trong các nhiệm vụ chuyên môn.
- SLMs tiết kiệm tài nguyên, phù hợp cho các ứng dụng thời gian thực và môi trường hạn chế tài nguyên.
- SLMs giúp cải thiện LLMs thông qua việc chọn lọc dữ liệu chất lượng cao cho quá trình huấn luyện.
- Các phương pháp như Model-oriented Data Selection (MoDS) giúp tối ưu hóa quá trình tinh chỉnh hướng dẫn cho LLMs.
- Các mô hình nhỏ cũng có thể giám sát các mô hình lớn hơn, giúp cải thiện khả năng tổng quát và giảm thiểu các lỗi.
- Kỹ thuật như Aligner và Weak-to-Strong Search giúp tăng cường sự phù hợp giữa LLMs và giá trị của con người.
- Các chiến lược kết hợp mô hình sử dụng cả LLMs và SLMs để tối ưu hóa hiệu suất và chi phí.
- SLMs có thể giúp đánh giá hiệu suất của LLMs, khắc phục các hạn chế của các phương pháp truyền thống.
- Các kỹ thuật thích ứng miền sử dụng mô hình nhỏ để cải thiện hiệu suất trong các lĩnh vực cụ thể.
- SLMs có thể tạo ra dữ liệu huấn luyện từ đầu hoặc tăng cường dữ liệu hiện có, cải thiện tính đa dạng cho các mô hình nhỏ hơn.
- SLMs có ưu thế trong các môi trường hạn chế tài nguyên, môi trường cụ thể và các tình huống yêu cầu khả năng giải thích cao.
- Việc lựa chọn giữa LLMs và SLMs cần cân nhắc giữa hiệu suất và khả năng giải thích, tùy thuộc vào yêu cầu cụ thể của ứng dụng.
📌 SLMs vẫn giữ vai trò quan trọng trong kỷ nguyên LLMs, nhờ vào khả năng tiết kiệm tài nguyên, cải thiện hiệu suất và khả năng giải thích. Các mô hình nhỏ có thể đạt hiệu suất tương đương với LLMs trong nhiều nhiệm vụ mà không cần tài nguyên lớn.
https://www.marktechpost.com/2024/09/15/small-but-mighty-the-enduring-relevance-of-small-language-models-in-the-age-of-llms/
• Mistral, startup AI của Pháp, vừa phát hành Pixtral 12B - mô hình đa phương thức đầu tiên của họ có khả năng xử lý cả hình ảnh và văn bản.
• Pixtral 12B có 12 tỷ tham số, kích thước khoảng 24GB. Số lượng tham số thường tương ứng với khả năng giải quyết vấn đề của mô hình.
• Mô hình này được xây dựng dựa trên Nemo 12B - một trong những mô hình văn bản của Mistral.
• Pixtral 12B có thể trả lời câu hỏi về số lượng hình ảnh tùy ý với kích thước tùy ý, dựa trên URL hoặc hình ảnh được mã hóa bằng base64.
• Các khả năng dự kiến của Pixtral 12B bao gồm chú thích hình ảnh và đếm số lượng đối tượng trong ảnh, tương tự như các mô hình đa phương thức khác như Claude của Anthropic và GPT-4 của OpenAI.
• Mô hình có sẵn để tải xuống thông qua liên kết torrent trên GitHub và nền tảng phát triển AI Hugging Face.
• Pixtral 12B được cấp phép Apache 2.0, cho phép tải xuống, tinh chỉnh và sử dụng không hạn chế.
• Chưa có bản demo web hoạt động tại thời điểm công bố. Sophia Yang, Trưởng bộ phận quan hệ nhà phát triển của Mistral, cho biết Pixtral 12B sẽ sớm có mặt trên nền tảng chatbot và API của Mistral là Le Chat và Le Plateforme.
• Chưa rõ Mistral đã sử dụng dữ liệu hình ảnh nào để phát triển Pixtral 12B.
• Hầu hết các mô hình AI tạo sinh, bao gồm cả các mô hình khác của Mistral, được đào tạo trên lượng lớn dữ liệu công khai từ internet, thường có bản quyền.
• Một số nhà cung cấp mô hình cho rằng quyền "sử dụng hợp lý" cho phép họ thu thập bất kỳ dữ liệu công khai nào, nhưng nhiều chủ sở hữu bản quyền không đồng ý và đã kiện các nhà cung cấp lớn hơn như OpenAI và Midjourney.
• Pixtral 12B ra mắt sau khi Mistral đóng vòng gọi vốn 645 triệu USD do General Catalyst dẫn đầu, định giá công ty ở mức 6 tỷ USD.
• Mistral, được thành lập hơn một năm trước và có Microsoft là cổ đông thiểu số, được coi là câu trả lời của châu Âu cho OpenAI.
• Chiến lược của Mistral bao gồm phát hành các mô hình "mở" miễn phí, tính phí cho các phiên bản quản lý của những mô hình đó và cung cấp dịch vụ tư vấn cho khách hàng doanh nghiệp.
📌 Mistral ra mắt Pixtral 12B - mô hình đa phương thức 12 tỷ tham số xử lý hình ảnh và văn bản. Được cấp phép Apache 2.0, mô hình 24GB này dựa trên Nemo 12B, có thể tải xuống và sử dụng tự do. Đây là bước tiến quan trọng sau khi Mistral gọi vốn 645 triệu USD, định giá 6 tỷ USD.
https://techcrunch.com/2024/09/11/mistral-releases-pixtral-its-first-multimodal-model/
• IBM vừa công bố PowerLM-3B và PowerMoE-3B, hai mô hình ngôn ngữ mới với 3 tỷ tham số, nhằm cải thiện hiệu quả và khả năng mở rộng trong huấn luyện mô hình ngôn ngữ quy mô lớn.
• Các mô hình này được xây dựng dựa trên Power scheduler của IBM, giải quyết những thách thức chính trong việc huấn luyện mô hình quy mô lớn như tối ưu hóa siêu tham số và lập lịch tốc độ học.
• Power scheduler của IBM giới thiệu phương pháp linh hoạt điều chỉnh tốc độ học dựa trên số lượng token huấn luyện và kích thước batch, không cần xác định trước số bước huấn luyện.
• PowerLM-3B là mô hình transformer dày đặc với 3 tỷ tham số, được huấn luyện trên 1,25 nghìn tỷ token từ dữ liệu nguồn mở chất lượng cao và dữ liệu tổng hợp.
• PowerMoE-3B sử dụng kiến trúc mixture-of-experts (MoE) của IBM, chỉ kích hoạt 800 triệu tham số trong tổng số 3 tỷ tham số khi suy luận, giúp giảm đáng kể chi phí tính toán.
• PowerMoE-3B được huấn luyện trên 2,5 nghìn tỷ token, đạt hiệu suất tương đương các mô hình dày đặc có nhiều tham số hơn.
• Cả hai mô hình đều thể hiện hiệu suất cạnh tranh trên nhiều tác vụ xử lý ngôn ngữ tự nhiên như trả lời câu hỏi trắc nghiệm, suy luận thông thường và tạo mã.
• PowerLM-3B đạt điểm cao trong các bài kiểm tra như ARC và PIQA, vượt trội so với nhiều mô hình có số lượng tham số tương tự.
• PowerMoE-3B xuất sắc trong các tác vụ đòi hỏi hiệu quả tính toán, đạt kết quả cạnh tranh với chi phí suy luận thấp hơn nhiều.
• Kết quả cho thấy tiềm năng của Power scheduler và kiến trúc MoE của IBM trong việc cách mạng hóa cách huấn luyện và triển khai các mô hình ngôn ngữ lớn.
• Bằng cách tối ưu hóa tốc độ học và giảm yêu cầu tính toán, các mô hình này mở ra hướng đi mới cho các tổ chức muốn tận dụng mô hình ngôn ngữ tiên tiến mà không phải chịu chi phí khổng lồ.
📌 IBM ra mắt PowerLM-3B và PowerMoE-3B với 3 tỷ tham số, sử dụng Power scheduler để tối ưu huấn luyện. PowerLM-3B huấn luyện trên 1,25 nghìn tỷ token, PowerMoE-3B trên 2,5 nghìn tỷ token. Cả hai đạt hiệu suất cạnh tranh trong nhiều tác vụ NLP, mở ra hướng đi mới cho AI hiệu quả và tiết kiệm chi phí.
https://www.marktechpost.com/2024/09/11/powerlm-3b-and-powermoe-3b-released-by-ibm-revolutionizing-language-models-with-3-billion-parameters-and-advanced-power-scheduler-for-efficient-large-scale-ai-training/
• LG AI Research đã ra mắt EXAONE 3.0, một mô hình ngôn ngữ song ngữ tiên tiến với 7,8 tỷ tham số, xuất sắc trong cả tiếng Anh và tiếng Hàn.
• EXAONE 3.0 là phiên bản mới nhất trong dòng mô hình EXAONE, với tên gọi xuất phát từ "EXpert AI for EveryONE", thể hiện cam kết của LG trong việc phổ cập AI chuyên gia.
• So với EXAONE 1.0 và 2.0, phiên bản 3.0 đã cải thiện đáng kể về hiệu suất và chi phí:
- Giảm 56% thời gian xử lý suy luận
- Giảm 72% chi phí so với EXAONE 2.0
- Chi phí vận hành chỉ bằng 6% so với EXAONE 1.0
• Kiến trúc của EXAONE 3.0:
- Sử dụng kiến trúc transformer chỉ giải mã (decoder-only)
- Độ dài ngữ cảnh tối đa 4.096 token
- 32 lớp với kích thước feedforward 14.336 và 32 đầu
- Sử dụng Rotary Position Embeddings (RoPE) và Grouped Query Attention (GQA)
- Kích thước từ vựng 102.400
• Quá trình huấn luyện:
- Tiền huấn luyện trên tập dữ liệu đa dạng gồm 8 nghìn tỷ token
- Hai giai đoạn: kiến thức chung và kiến thức chuyên ngành
- Tinh chỉnh có giám sát (SFT) và Tối ưu hóa ưu tiên trực tiếp (DPO)
• Hiệu suất vượt trội:
- Đứng đầu trong nhiều bài kiểm tra tiếng Anh như MT-Bench (điểm 9,01), Arena-Hard-v0.1, WildBench, AlpacaEval 2.0 LC
- Xếp hạng cao trong các bài kiểm tra toán học và lập trình
- Dẫn đầu trong các bài kiểm tra tiếng Hàn như KMMLU, KoBEST, LogicKor
• Ứng dụng đa ngành:
- Y tế: chẩn đoán, phân tích dự đoán, y học cá nhân hóa
- Tài chính: đánh giá rủi ro, phát hiện gian lận, phân tích thị trường
- Truyền thông và giải trí: tự động hóa tạo nội dung, mô phỏng thực tế, trải nghiệm người dùng
• LG AI Research đã mở mã nguồn EXAONE 3.0 7.8B cho cộng đồng AI sử dụng với mục đích phi thương mại và nghiên cứu, thúc đẩy sự đổi mới và hợp tác trong lĩnh vực AI.
📌 EXAONE 3.0 là bước đột phá của LG AI Research với mô hình ngôn ngữ 7,8 tỷ tham số vượt trội trong tiếng Anh và tiếng Hàn. Mô hình mã nguồn mở này đạt hiệu suất cao trên nhiều bài kiểm tra, giảm 72% chi phí so với phiên bản trước và có tiềm năng ứng dụng rộng rãi trong nhiều ngành.
https://www.marktechpost.com/2024/09/08/lg-ai-research-open-sources-exaone-3-0-a-7-8b-bilingual-language-model-excelling-in-english-and-korean-with-top-performance-in-real-world-applications-and-complex-reasoning/
• Mô hình ngôn ngữ nhỏ (SLM) là loại mô hình AI có ít tham số hơn, sử dụng ít dữ liệu huấn luyện hơn và yêu cầu ít sức mạnh tính toán hơn so với mô hình ngôn ngữ lớn (LLM).
• SLM tập trung vào các chức năng chính và có thể triển khai trên nhiều thiết bị khác nhau, kể cả thiết bị di động. Ví dụ: Gemini Nano của Google có thể chạy cục bộ trên thiết bị di động.
• Một số SLM phổ biến bao gồm Phi-3 của Microsoft, GPT-4o mini của OpenAI, Claude 3 Haiku của Anthropic, Llama 3 của Meta và Mixtral 8x7B của Mistral AI.
• SLM thường có từ vài triệu đến vài tỷ tham số, trong khi LLM có thể lên đến hàng nghìn tỷ tham số. Ví dụ: GPT-3 có 175 tỷ tham số, trong khi Phi-3-mini của Microsoft chỉ có 3,8 tỷ.
• SLM được huấn luyện trên lượng dữ liệu nhỏ hơn nhưng chất lượng cao hơn so với LLM. Điều này giúp SLM đạt được nhiều khả năng tương tự LLM trong kích thước nhỏ gọn.
• Chi phí huấn luyện và duy trì SLM thấp hơn nhiều so với LLM. Ví dụ: OpenAI tiêu tốn hơn 100 triệu USD để huấn luyện GPT-4, trong khi Meta sử dụng 992 GPU NVIDIA A100 trị giá khoảng 9 triệu USD để huấn luyện OPT-175B.
• SLM có hiệu suất tốt hơn với độ trễ thấp hơn, phù hợp cho các ứng dụng thời gian thực như trợ lý ảo.
• SLM thường chính xác hơn do được huấn luyện trên dữ liệu chất lượng cao và có thể tinh chỉnh cho các tác vụ cụ thể.
• SLM có thể chạy trên thiết bị, giúp bảo vệ quyền riêng tư và giảm chi phí triển khai máy chủ cho các công ty.
• Các công ty lớn như OpenAI, Google, Microsoft, Anthropic và Meta đang đầu tư vào SLM, cho thấy tiềm năng của công nghệ này trong tương lai.
📌 SLM đang trở thành xu hướng tương lai của AI với chi phí thấp, hiệu suất cao và khả năng chạy trên thiết bị. Tuy nhiên, LLM vẫn có vai trò trong các ứng dụng phức tạp như nghiên cứu y học. Các công ty lớn đang phát triển cả SLM và LLM để đáp ứng nhu cầu đa dạng.
https://www.makeuseof.com/why-small-language-models-are-the-future-of-ai/
• SLM (Small Language Model) là các mô hình ngôn ngữ nhỏ, thường có dưới 20 tỷ tham số, trong khi LLM (Large Language Model) như GPT-4 có tới 1,76 nghìn tỷ tham số.
• SLM được thiết kế nhỏ gọn và hiệu quả hơn, cho phép xử lý nhanh hơn và chi phí tính toán thấp hơn, đặc biệt trong môi trường hạn chế tài nguyên.
• Các mô hình nhỏ như Microsoft Phi-2 (2,7 tỷ tham số) đã cho thấy hiệu suất đáng kinh ngạc trong các tác vụ liên quan đến mã. IBM Granite (13 tỷ tham số) thậm chí còn vượt trội hơn Llama 2 (70 tỷ tham số) trong 9/11 tác vụ tài chính.
• SLM cho phép phát triển các mô hình chuyên biệt theo lĩnh vực (Domain-Aligned Models), đặc biệt hữu ích cho các ngành như luật, tài chính, bảo hiểm và y tế.
• Đối với nhà phát triển, SLM giúp rút ngắn chu kỳ phát triển tới 60-70% so với LLM. Khả năng tinh chỉnh trên dữ liệu chuyên ngành mà không tốn kém đang dân chủ hóa việc phát triển AI.
• SLM có thể chạy trên cả đám mây và thiết bị người dùng cuối. Trên đám mây, GPU nhỏ hơn như T4 hoặc V100 có thể xử lý hầu hết khối lượng công việc SLM. Tại biên, các bộ tăng tốc phần cứng như Google Edge TPU hoặc NVIDIA Jetson series đang cho kết quả đầy hứa hẹn.
• SLM đặc biệt phù hợp cho các ứng dụng AI thời gian thực, độ trễ thấp trên các thiết bị như điện thoại thông minh, máy tính bảng và cảm biến IoT.
• Tuy nhiên, SLM cũng có hạn chế như khó xử lý các tác vụ phức tạp đòi hỏi kiến thức rộng hoặc khả năng suy luận tổng quát. Chúng cũng có thể kém linh hoạt hơn trong việc xử lý sự mơ hồ hoặc tạo ra nội dung sáng tạo so với LLM lớn hơn.
• Xu hướng SLM đang thúc đẩy việc đổi mới trong kiến trúc mô hình, kỹ thuật đào tạo và chiến lược triển khai AI. Các công ty như Katonic AI đang tập trung vào các lĩnh vực như chưng cất kiến thức và mô hình hóa thưa thớt để tăng khả năng trong không gian tham số nhỏ hơn.
• Sự phát triển từ LLM đa năng sang SLM chuyên biệt cho thấy xu hướng hướng tới các giải pháp AI hiệu quả và phù hợp với từng lĩnh vực cụ thể.
📌 SLM đang định hình tương lai của AI với hiệu suất ấn tượng trong các tác vụ chuyên biệt, giảm 60-70% thời gian phát triển và chi phí. Xu hướng này hứa hẹn mở ra khả năng áp dụng AI tạo sinh quy mô lớn, có tiềm năng cách mạng hóa toàn bộ ngành công nghiệp AI.
https://www.digit.in/features/general/slm-vs-llm-why-smaller-gen-ai-models-maybe-better.html
• Eugene Cheah, chủ tịch Recursal.ai, đã phát triển mô hình AI mới có tên receptance weighted key value (RWKV) nhằm giúp AI trở nên dễ tiếp cận hơn ở Đông Nam Á.
• RWKV kết hợp công nghệ mạng nơ-ron hồi quy (RNN) với các yếu tố của mô hình transformer được huấn luyện trước (GPT) để tạo ra một mô hình AI có thể chạy dễ dàng trên các thiết bị cấu hình thấp.
• Mô hình này có thể chạy AI với 7 tỷ tham số chỉ trên 12GB RAM - tương đương GPU dùng để chơi game. Điều này giúp giảm chi phí chip AI xuống còn vài trăm đô la thay vì hàng nghìn đô la.
• RWKV giảm chi phí tính toán xuống 100 lần so với các mô hình GPT thông thường. Điều này giúp các startup không cần phải sử dụng điện toán đám mây đắt đỏ.
• Hiện tại, chi phí phát triển AI đang tăng cao do giá GPU và phần cứng liên quan tăng mạnh. Ví dụ: một máy chủ với 8 card Nvidia H100 SXM có giá 296.644 USD.
• Các mô hình AI lớn như ChatGPT4 với 1,8 nghìn tỷ tham số cần 3 tháng huấn luyện trên 8.000 GPU H100, tổng chi phí lên tới 32,7 triệu USD.
• Nhiều startup buộc phải sử dụng điện toán đám mây để phát triển AI, nhưng các máy chủ đám mây ở Đông Nam Á còn hạn chế và đắt đỏ.
• Cheah cho rằng hầu hết các doanh nghiệp không cần mô hình với hàng nghìn tỷ tham số. Mô hình 7 tỷ tham số đã đủ cho nhiều ứng dụng doanh nghiệp.
• RWKV đã được sử dụng thành công trong một số trường hợp như điện thoại an toàn cho trẻ em, hỗ trợ bác sĩ viết báo cáo xuất viện, hay hỗ trợ công việc pháp lý.
• Mặc dù có ưu điểm về chi phí, mô hình RWKV được tinh chỉnh cho một lĩnh vực cụ thể sẽ kém linh hoạt hơn so với các mô hình đa năng như ChatGPT.
📌 Mô hình RWKV giúp giảm chi phí phát triển AI xuống 100 lần, cho phép chạy mô hình 7 tỷ tham số trên GPU thông thường. Điều này mở ra cơ hội tiếp cận AI cho các startup và doanh nghiệp vừa và nhỏ ở Đông Nam Á, thay vì chỉ giới hạn trong nhóm các công ty công nghệ lớn.
https://www.techinasia.com/cant-afford-300k-ai-chips-new-model-sea-cuts-high-costs
#TechinAsia
Can’t afford $300k for AI chips? New model for SEA cuts high costs
There is a saying that goes, “During a gold rush, sell shovels.”
No one has learned that better than the semiconductor industry. The price of graphical processing units (GPUs) – the shovels of the AI age – has skyrocketed since the release of OpenAI’s ChatGPT in November 2022.
While the AI industry’s Magnificent Seven – which includes Google, Microsoft, and Meta – can afford to spend billions, many startups can no longer afford to dig.
Eugene Cheah says he doesn’t want to see that happen.
“I want to make sure that AI is accessible for everyone else in the rest of Southeast Asia,” he tells Tech in Asia. Cheah is the chairman of Recursal.ai, an open-source AI platform that has developed a new model called receptance weighted key value (RWKV).
He was previously the co-founder and chief technology officer of Uilicious, a low-code test automation tool.
RWKV combines recurrent neural network (RNN) technology with elements of generative pre-trained transformer (GPT) – a type of large language model (LLM) like ChatGPT – to provide an AI model that runs easily on low-end devices.
While most people associate AI with the likes of ChatGPT for individuals, enterprise AI is software integrated and built to support the functions of businesses. It can be used for data collection, analysis, and automation of tasks, among others.
In short, RWKV is an AI model that can run enterprise-level software without the costs associated with high-end computer chips. It can even run an AI model with 7 billion parameters on 12 GB of RAM – the same GPUs used for playing video games, Cheah says.
That reduces the cost that firms spend on AI chips to hundreds of dollars instead of thousands.
These more efficient AI models mean that startups no longer need to run to the cloud, Cheah says.
For businesses using GPT technology to develop AI, costs have soared due to high computation expenses and the escalating prices of AI chips and related hardware. As a result, AI development is becoming affordable only to deep-pocketed players.
So can the RWKV model compete with the LLMs from the AI industry’s Magnificent Seven?
Lower costs = AI accessibility
“The RWKV project’s primary goal is to make AI accessible to everyone, regardless of language or nation,” Cheah says.
It does this by reducing computational cost by a scale of 100x, he adds.
RWKV is owned by Recursal and the not-for-profit Linux Foundation. While Recursal, which is backed by Hack VC and Soma Capital, has not released how much it has raised to date, it plans to raise no more than US$250 million.
RNN technology, which the RWKV model uses, has largely been abandoned by the AI industry in place of GPT technology. RNN was designed to train one word (or token) at a time. And unlike other LLM models, it does not link the token to every other token in the system.
While this cuts down on the amount of processing needed, Cheah says it also leads to a design bottleneck where “even if you throw in high-end GPUs, you are still training one token at a time or one word at a time.” As such, it’s not possible to scale up training speed.
“That’s why previously we never had an RNN that has over a billion parameters,” he says. In AI, parameter refers to the internal variables that models use to make predictions or decisions.
By combining RNN technology with elements of GPT, RWKV has built several models that can provide industry-specific use cases.
We have a client that uses a 7B model to provide a safe phone for kids… These are very low-hanging fruits for AI models, and 7B is more than sufficient.
“We have already successfully scaled our RWKV architecture to 7 billion parameters (7B) and 14 billion parameter (14B). Now the question is, can we scale it even further? And that’s really a question more of funding and experimentation,” Cheah explains.
In the open-source space, the high-end standard is currently at 70 billion and 405 billion parameters.
But that’s nothing compared to what Magnificent Seven are building, which are using 1 trillion parameters models. This is possible due to technology introduced in a 2017 paper called “Attention Is All You Need.”
Transformer-based AI models use attention mechanisms, which can determine the relative importance of words or even just parts of words and how they relate to each other. It is incredibly data intensive, and training a 1-billion parameter model requires 80 GB of GPU memory, which is prohibitively expensive in the current AI boom.
Nvidia’s H100 SXM, which uses the top AI chip on the market – the H100 – has 80 GB of memory and sells for US$32,700. (Tech in Asia found one currently marked down to US$29,600. You’re welcome.)
A preloaded server with 8 SXM cards sells for US$296,644.
Using one of those often isn’t enough, either. Case in point: OpenAI’s ChatGPT4, which has 1.8 trillion parameters. It requires three months of training using 8,000 H100 GPUs, Nvidia CEO Jensen Huang said at a recent conference. That would cost US$32.7 million in total at current prices.
These of course are just the hardware prices. Electricity is extra. For instance, using 2,000 Nvidia cards could cost Texas-based firms over US$2 million a year, according to a report from US-based Liftr Insights.
To give an example of just how many of these chips are being used by the Magnificent Seven, Meta founder and CEO Mark Zuckerberg said the social media giant will have 350,000 H100 cards by the end of 2024.
Meta’s latest AI model, Llama 3, is designed to work across all its social media platforms and runs with both 7B and 70B parameters.
Running to the cloud
This level of pricing has forced many startups to use cloud computing to train and develop their AI applications, but that often presents its own issues. Startups tell Tech in Asia that cloud servers in Southeast Asia are limited and expensive, although prices have come down thanks to new data centers in Malaysia and Singapore.
Google has pledged US$2.2 billion to build data centers in Malaysia for the express purpose of using them for AI development.
Revenue from public cloud computing in Southeast Asia is expected to reach US$16.4 billion in 2024, according to Statista. It is expected to grow annually by 20%, meaning the market could reach US$40.8 billion by 2029.
Financing new data centers isn’t cheap. With high-end chips still in demand, owners will be charging a premium to recoup their costs.
More power than you need
Cheah believes, however, that most companies don’t need 1T parameters.
“We have a client that uses a 7B model to provide a safe phone for kids,” he says. Every message the phone receives is scanned for sexual content and expletives. “These are very low-hanging fruits for AI models, and 7B is more than sufficient.”
Most of the business enterprise models – including medical, banking, finance, and legal – do not require high-end computation. They just have a single area that can be focused on.
Cheah cites the process of discharging patients at a hospital as an example. The manual process requires a doctor to write a review of the case, a process that can take 30 minutes. In comparison, a 7B AI can write a review in three minutes.
“Multiply that by the amount of patients in the network and by the amount of doctors in the network, and then it starts adding up to tens of millions of dollars,” he estimates. “These are what sometimes I call ‘boring but big impact’ use cases.”
For instance, a fine-tuned RWKV model used in a law office actually performed better than the ChatGPT model – at least when it came to legal benchmarks, according to Cheah. But that fine-tuning has a price.
“The downside is if you ask the law model how to cook – or anything else – it will just utter garbage,” he says.
• NVIDIA, Georgia Tech, UMD và HKPU đã phát triển dòng mô hình ngôn ngữ-thị giác đa phương thức (MLLM) mới có tên NVEagle.
• NVEagle có 3 phiên bản chính: Eagle-X5-7B, Eagle-X5-13B và Eagle-X5-13B-Chat, với số tham số lần lượt là 7 tỷ và 13 tỷ.
• Mô hình sử dụng phương pháp kết hợp nhiều bộ mã hóa thị giác (vision encoders) bổ sung cho nhau bằng cách nối đơn giản các token thị giác.
• NVEagle giới thiệu giai đoạn Pre-Alignment để căn chỉnh các chuyên gia thị giác không căn chỉnh văn bản với mô hình ngôn ngữ trước khi tích hợp.
• Mô hình sử dụng kỹ thuật Mixture of Experts (MoE) trong bộ mã hóa thị giác, giúp cải thiện đáng kể khả năng nhận thức hình ảnh.
• NVEagle đạt kết quả ấn tượng trên nhiều bộ benchmark. Ví dụ, đạt điểm trung bình 85,9 trên OCRBench, vượt trội so với các mô hình hàng đầu khác.
• Trên TextVQA, Eagle-X5 đạt 88,8 điểm, cải thiện đáng kể so với các đối thủ cạnh tranh.
• Trong nhiệm vụ trả lời câu hỏi dựa trên hình ảnh GQA, mô hình đạt 65,7 điểm.
• Việc bổ sung thêm các chuyên gia thị giác như Pix2Struct và EVA-02 giúp cải thiện hiệu suất trên nhiều bộ benchmark.
• NVEagle giải quyết được nhiều thách thức chính trong nhận thức thị giác của các mô hình MLLM hiện có.
• Mô hình đạt hiệu suất tốt nhất trên nhiều tác vụ khác nhau với thiết kế tối ưu và hiệu quả.
• NVEagle đã được phát hành trên Hugging Face, giúp các nhà nghiên cứu và nhà phát triển dễ dàng tiếp cận.
📌 NVEagle là bước đột phá trong MLLM với 3 phiên bản 7B-13B, sử dụng nhiều bộ mã hóa thị giác và MoE. Đạt hiệu suất vượt trội trên OCR (85,9 điểm), TextVQA (88,8) và GQA (65,7), giải quyết thách thức về nhận thức hình ảnh độ phân giải cao.
https://www.marktechpost.com/2024/09/01/nveagle-released-by-nvidia-a-super-impressive-vision-language-model-that-comes-in-7b-13b-and-13b-fine-tuned-on-chat/
• Microsoft vừa công bố 3 mô hình AI nguồn mở mới thuộc dòng Phi-3.5: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct và Phi-3.5-vision-instruct. Các mô hình này được cấp phép MIT, cho phép các nhà phát triển tự do sử dụng, sửa đổi và phân phối.
• Phi-3.5-mini-instruct có 3,82 tỷ tham số, được tối ưu hóa cho các tác vụ suy luận cơ bản và nhanh chóng. Mô hình này phù hợp cho việc tạo mã, giải quyết vấn đề toán học và các tác vụ suy luận dựa trên logic trong môi trường hạn chế về bộ nhớ và tính toán.
• Phi-3.5-MoE-instruct có 41,9 tỷ tham số, sử dụng kiến trúc mixture-of-experts. Mô hình này có khả năng xử lý các tác vụ suy luận phức tạp hơn bằng cách kích hoạt các tham số khác nhau tùy thuộc vào đầu vào.
• Phi-3.5-vision-instruct có 4,15 tỷ tham số, tích hợp khả năng xử lý cả văn bản và hình ảnh. Mô hình đa phương thức này có thể xử lý nhiều tác vụ như hiểu hình ảnh, nhận dạng ký tự quang học và tóm tắt video.
• Cả 3 mô hình đều được huấn luyện chuyên sâu. Phi-3.5-mini-instruct được huấn luyện trên 3,4 nghìn tỷ token trong 10 ngày. Phi-3.5-MoE-instruct được huấn luyện trên 4,9 nghìn tỷ token trong 23 ngày. Phi-3.5-vision-instruct được huấn luyện trên 500 tỷ token trong 6 ngày.
• Các mô hình Phi-3.5 đạt hiệu suất cao trên nhiều tiêu chuẩn đánh giá, thường vượt trội so với các mô hình AI hàng đầu khác như GPT-4 trong một số tình huống.
• Cộng đồng AI đã phản ứng tích cực về khả năng kỹ thuật của dòng Phi-3.5, đặc biệt là trong các tác vụ đa ngôn ngữ và thị giác. Nhiều người dùng trên mạng xã hội đã ghi nhận hiệu suất của các mô hình trong các tiêu chuẩn đánh giá.
• Việc phát hành các mô hình Phi-3.5 dưới giấy phép MIT nhằm tạo điều kiện thuận lợi cho việc tích hợp khả năng AI vào các ứng dụng và dự án khác nhau, hỗ trợ nhiều trường hợp sử dụng trong các ngành công nghiệp khác nhau.
Microsoft ra mắt 3 mô hình AI mã nguồn mở Phi-3.5 mới với khả năng xử lý đa nhiệm vụ, đa ngôn ngữ và phân tích hình ảnh
• Llama-3.1-Storm-8B là mô hình ngôn ngữ 8B tham số được cải tiến từ Llama-3.1-8B-Instruct, nhằm nâng cao khả năng hội thoại và gọi hàm.
• Mô hình này vượt trội so với Llama-3.1-8B-Instruct và Hermes-3-Llama-3.1-8B trên nhiều bài kiểm tra đa dạng như làm theo hướng dẫn, trả lời câu hỏi dựa trên kiến thức, lập luận, tạo câu trả lời trung thực và gọi hàm.
• Quy trình phát triển Llama-3.1-Storm-8B gồm 3 bước chính:
1. Tự lựa chọn dữ liệu: Chọn khoảng 1 triệu mẫu chất lượng cao từ 2,8 triệu mẫu nguồn mở, dựa trên giá trị giáo dục và mức độ khó.
2. Tinh chỉnh có mục tiêu: Sử dụng phương pháp Spectrum để tinh chỉnh có chọn lọc 50% các lớp của mô hình.
3. Kết hợp mô hình: Kết hợp mô hình đã tinh chỉnh với mô hình Llama-Spark bằng phương pháp SLERP.
• Llama-3.1-Storm-8B cải thiện đáng kể so với Llama-3.1-8B-Instruct trên nhiều chỉ số:
- Làm theo hướng dẫn (IFEval): +3,93%
- Trả lời câu hỏi dựa trên kiến thức (GPQA): +7,21%
- Lập luận (ARC-C): +3,92%
- Giảm ảo tưởng (TruthfulQA): +9%
- Khả năng gọi hàm (BFCL): +7,92%
• Mô hình có sẵn ở các định dạng BF16, FP8 và GGUF, có thể dễ dàng tích hợp vào các dự án sử dụng thư viện Transformers và vLLM.
• Nhóm nghiên cứu dự định áp dụng phương pháp này để cải thiện các mô hình ngôn ngữ nhỏ khác như Gemma-2, Phi-3 và Qwen2.
• Mặc dù không trải qua quá trình căn chỉnh rõ ràng, Llama-3.1-Storm-8B có thể vẫn giữ một số đặc tính căn chỉnh từ mô hình gốc Llama-3.1-8B-Instruct.
📌 Llama-3.1-Storm-8B là mô hình ngôn ngữ 8B tham số vượt trội, cải thiện 3,93% - 9% trên nhiều bài kiểm tra so với Llama-3.1-8B-Instruct. Kỹ thuật tự lựa chọn dữ liệu và kết hợp mô hình giúp nâng cao hiệu suất đáng kể với tài nguyên hạn chế.
https://huggingface.co/blog/akjindal53244/llama31-storm8b
• AnswerAI đã công bố mô hình answerai-colbert-small-v1, một bước đột phá trong lĩnh vực truy xuất đa vector. Mô hình này chỉ có 33 triệu tham số nhưng đã vượt qua hiệu suất của tất cả các mô hình cùng kích thước trước đó trên các bộ benchmark phổ biến.
• Đáng ngạc nhiên hơn, answerai-colbert-small-v1 còn vượt trội so với các mô hình lớn hơn và được sử dụng rộng rãi như e5-large-v2 và bge-base-en-v1.5. Điều này cho thấy tiềm năng to lớn của phương pháp tiếp cận của AnswerAI trong việc mở rộng giới hạn của các mô hình AI nhỏ gọn và hiệu quả hơn.
• Mô hình này được phát triển dựa trên kiến trúc ColBERT, sử dụng phương pháp truy xuất đa vector. Thay vì tạo ra một vector duy nhất cho mỗi tài liệu, ColBERT tạo ra nhiều vector nhỏ hơn, mỗi vector đại diện cho một token. Kỹ thuật này giải quyết vấn đề mất thông tin thường gặp trong các biểu diễn vector đơn, đặc biệt là trong các tác vụ tổng quát hóa ngoài miền.
• answerai-colbert-small-v1 sử dụng cơ chế chấm điểm MaxSim độc đáo, tính toán độ tương đồng giữa các token của truy vấn và tài liệu, sau đó tổng hợp các độ tương đồng cao nhất cho mỗi token truy vấn. Phương pháp này cải thiện đáng kể khả năng tổng quát hóa ngoài miền.
• Mô hình được phát triển sử dụng công thức huấn luyện JaColBERTv2.5 sáng tạo cùng với các tối ưu hóa bổ sung. JaColBERTv2, được xây dựng dựa trên công thức ColBERTv2, hiện là bộ truy xuất ngoài miền mạnh nhất trên tất cả các bộ benchmark tiếng Nhật hiện có.
• answerai-colbert-small-v1 được thiết kế đặc biệt với khả năng tương thích trong tương lai, đặc biệt là cho bản nâng cấp sắp tới của RAGatouille. Cách tiếp cận hướng tới tương lai này đảm bảo rằng mô hình sẽ vẫn phù hợp và hữu ích khi các công nghệ mới xuất hiện.
• Mô hình vẫn duy trì khả năng tương thích rộng rãi với các triển khai ColBERT gần đây, mang lại cho người dùng sự linh hoạt trong việc lựa chọn công cụ và framework.
• Người dùng có thể sử dụng mô hình này thông qua hai tùy chọn chính: thư viện Stanford ColBERT hoặc RAGatouille. Quá trình cài đặt cho cả hai thư viện này đều đơn giản, chỉ cần thực hiện một lệnh đơn giản để bắt đầu.
• Kết quả của mô hình answerai-colbert-small-v1 cho thấy hiệu suất vượt trội khi so sánh với các mô hình vector đơn. Điều này minh chứng cho tiềm năng của phương pháp truy xuất đa vector khi kết hợp với các kỹ thuật huấn luyện tiên tiến.
📌 AnswerAI đã tạo ra một bước đột phá với mô hình answerai-colbert-small-v1 chỉ 33 triệu tham số nhưng vượt trội so với các mô hình lớn hơn. Sử dụng kiến trúc ColBERT và công thức huấn luyện JaColBERTv2.5, mô hình này xuất sắc trong tổng quát hóa ngoài miền và tương thích với các triển khai ColBERT gần đây, mở ra tiềm năng mới cho AI hiệu quả và nhỏ gọn.
https://www.marktechpost.com/2024/08/16/answer-ai-releases-answerai-colbert-small-a-proof-of-concept-for-smaller-faster-modern-colbert-models/
• Nvidia vừa công bố mô hình ngôn ngữ mới Llama-3.1-Minitron 4B, một phiên bản nhỏ gọn được tạo ra từ mô hình lớn hơn Llama 3.1 8B.
• Để tạo ra mô hình nhỏ hơn này, Nvidia đã sử dụng kỹ thuật cắt tỉa có cấu trúc theo chiều sâu và chiều rộng. Cụ thể, họ đã loại bỏ 16 lớp từ mô hình gốc để giảm kích thước từ 8B xuống 4B.
• Ngoài cắt tỉa, Nvidia còn áp dụng kỹ thuật chưng cất kiến thức cổ điển để nâng cao hiệu quả của Llama-3.1-Minitron 4B. Quá trình này giúp mô hình nhỏ hơn bắt chước hành vi của mô hình lớn hơn.
• Llama-3.1-Minitron 4B đạt hiệu suất cạnh tranh so với các mô hình nguồn mở tiên tiến lớn hơn trong nhiều bài kiểm tra. Nó vượt trội hơn hẳn so với nhiều mô hình ngôn ngữ nhỏ khác như Minitron 4B, Phi-2 2.7B, Gemma2 2.6B và Qwen2-1.5B.
• Mô hình mới chỉ sử dụng một phần nhỏ số lượng token huấn luyện so với việc huấn luyện từ đầu, tiết kiệm đáng kể chi phí tính toán.
• Nvidia đã tối ưu hóa thêm Llama-3.1-Minitron 4B để triển khai bằng bộ công cụ TensorRT-LLM, giúp tăng hiệu suất suy luận. Ví dụ, thông lượng của mô hình ở độ chính xác FP8 tăng lên gấp 2,7 lần so với mô hình Llama 3.1 8B gốc.
• Llama-3.1-Minitron 4B sẽ trở thành một phần trong bộ sưu tập Hugging Face của Nvidia, góp phần vào sự phát triển của các mô hình AI mạnh mẽ và miễn phí.
• Mô hình mới này đánh dấu một bước tiến quan trọng trong sự phát triển của các mô hình ngôn ngữ lớn, kết hợp hiệu quả của mô hình quy mô lớn với kích thước nhỏ gọn hơn.
• Llama-3.1-Minitron 4B có thể dễ dàng áp dụng trong nhiều lĩnh vực khác nhau nhờ vào hiệu suất cao và tính hiệu quả về tài nguyên.
📌 Nvidia đã tạo ra Llama-3.1-Minitron 4B, một mô hình ngôn ngữ 4 tỷ tham số có hiệu suất ngang ngửa các mô hình lớn hơn nhưng tiết kiệm tới 40 lần tài nguyên huấn luyện. Mô hình này vượt trội so với nhiều mô hình nhỏ khác và có thể dễ dàng triển khai trong nhiều ứng dụng thực tế.
https://www.marktechpost.com/2024/08/16/nvidia-ai-released-llama-minitron-3-1-4b-a-new-language-model-built-by-pruning-and-distilling-llama-3-1-8b/
• Các công ty đang chạy đua phát triển Mô hình Ngôn ngữ Lớn (LLM) đang phải đối mặt với chi phí khổng lồ. Việc vận hành các nền tảng AI như ChatGPT trên đám mây tốn kém đáng kể, với gói doanh nghiệp OpenAI có giá khởi điểm 60 USD/tháng cho tối thiểu 150 người dùng.
• Một số nhà đầu tư mạo hiểm lo ngại về khả năng sinh lời. David Cahn từ Sequoia Capital cho rằng các công ty AI tạo sinh cần tạo ra doanh thu hàng năm kết hợp 600 tỷ USD để đáp ứng khoản đầu tư khổng lồ.
• Trong bối cảnh đó, một số công ty đang phát triển Mô hình Ngôn ngữ Nhỏ (SLM) như một giải pháp thay thế. SLM được đào tạo với ít dữ liệu hơn, tiêu thụ ít năng lượng hơn và có thể được điều chỉnh cho các nhu cầu doanh nghiệp cụ thể.
• Karthik Dinakar, CTO của Pienso - một nhà phát triển SLM, cho rằng cuộc cạnh tranh giữa các startup AI và các ông lớn công nghệ là một trò chơi thua cuộc đối với các doanh nghiệp nhỏ do chi phí quá cao.
• Các công ty như Pienso và Acree đang phát triển các mô hình AI nhỏ hơn phục vụ cho các nhu cầu doanh nghiệp cụ thể như kiểm duyệt nội dung, phát hiện rủi ro kinh doanh hay trả lời câu hỏi về thuế.
• Sharon Zhou, người sáng lập Lamini, cho rằng LLM có thể chưa bao giờ là giải pháp khả thi nhất cho các doanh nghiệp nhỏ. Thay vào đó, các mô hình doanh nghiệp cần học từ dữ liệu riêng và thích ứng với mục tiêu cụ thể.
• Một số công ty lớn như Meta và Anthropic cũng đang bắt đầu nghiên cứu phát triển các mô hình nhỏ hơn, hiệu quả hơn.
• SLM có thể là một lĩnh vực mà các startup nhỏ có lợi thế so với các ông lớn công nghệ. Đây có thể là cơ hội cho các doanh nghiệp muốn tham gia vào lĩnh vực AI tạo sinh.
📌 Mô hình ngôn ngữ nhỏ (SLM) đang nổi lên như một giải pháp tiết kiệm chi phí và hiệu quả hơn cho doanh nghiệp so với các mô hình lớn (LLM). Với chi phí thấp hơn và khả năng tùy chỉnh cao, SLM có thể là xu hướng mới trong lĩnh vực AI tạo sinh, mở ra cơ hội cho các startup nhỏ cạnh tranh với các gã khổng lồ công nghệ.
https://www.inc.com/sam-blum/generative-ai-isnt-delivering-small-language-models.html
- Viện Đổi mới Công nghệ (TII), trung tâm nghiên cứu khoa học toàn cầu hàng đầu và là trụ cột nghiên cứu ứng dụng của Hội đồng Nghiên cứu Công nghệ Tiên tiến Abu Dhabi (ATRC) đã phát hành mô hình ngôn ngữ lớn mới trong loạt sản phẩm Falcon, đó là Falcon Mamba 7B. Đây là mô hình SSLM (State Space Language Model) nguồn mở hàng đầu thế giới, được Hugging Face xác minh độc lập.
- Falcon Mamba 7B vượt trội so với các mô hình kiến trúc transformer truyền thống như Llama 3.1 8B của Meta và Mistral 7B. Đây là ví dụ tiêu biểu về nghiên cứu tiên phong mà viện đang tiến hành và các công cụ đột phá mà viện cung cấp cho cộng đồng dưới dạng mã nguồn mở.
- Mô hình SSLM mới này có chi phí bộ nhớ thấp và không yêu cầu bộ nhớ bổ sung để tạo ra các khối văn bản dài tùy ý. Falcon Mamba 7B cũng vượt trội hơn các mô hình kiến trúc transformer truyền thống như Llama 3.1 8B của Meta và Mistral 7B.
- Mô hình mới phản ánh sự đổi mới và phương pháp tiên phong của Abu Dhabi trong nghiên cứu và phát triển AI. Falcon Mamba 7B đánh dấu mô hình AI hàng đầu thứ tư liên tiếp của TII, khẳng định Abu Dhabi là trung tâm toàn cầu về nghiên cứu và phát triển AI.
- Các mô hình SSLM có thể ứng dụng trong nhiều lĩnh vực như ước tính, dự báo và kiểm soát. Tương tự như các mô hình kiến trúc transformer, chúng cũng xuất sắc trong các tác vụ Xử lý Ngôn ngữ Tự nhiên và có thể được áp dụng cho dịch máy, tóm tắt văn bản, thị giác máy tính và xử lý âm thanh.
- Falcon Mamba 7B sẽ được phát hành theo Giấy phép Falcon 2.0 của TII, giấy phép phần mềm mã nguồn mở dựa trên Apache 2.0 bao gồm chính sách sử dụng chấp nhận được thúc đẩy việc sử dụng AI có trách nhiệm.
📌 Viện Đổi mới Công nghệ của UAE đã cách mạng hóa các mô hình ngôn ngữ AI với kiến trúc mới, ra mắt mô hình Falcon Mamba 7B - mô hình SSLM nguồn mở hàng đầu thế giới, vượt trội so với các mô hình kiến trúc transformer truyền thống. Đây là bước tiến đột phá trong nghiên cứu AI tại UAE, khẳng định vị thế trung tâm toàn cầu về AI của Abu Dhabi.
https://www.businesswire.com/news/home/20240812019509/en/
- Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B là hai dự án đột phá được Migel Tissera công bố trên Hugging Face vào ngày 9 tháng 8 năm 2024.
- Trinity-2-Codestral-22B là một hệ thống nâng cấp, đáp ứng nhu cầu ngày càng tăng về khả năng tính toán hiệu quả và mở rộng trong bối cảnh dữ liệu đang tăng trưởng nhanh chóng.
- Hệ thống này tích hợp các thuật toán tiên tiến với khả năng xử lý nâng cao, cho phép xử lý dữ liệu quy mô lớn với tốc độ và độ chính xác chưa từng có.
- Kiến trúc của Trinity-2-Codestral-22B cho phép tích hợp liền mạch với hạ tầng hiện có và linh hoạt trong việc mở rộng quy mô hoạt động.
- Dự án này dự kiến sẽ có tác động sâu sắc đến các ngành công nghiệp như tài chính, y tế và nghiên cứu khoa học, nơi mà phân tích và xử lý dữ liệu là rất quan trọng.
- Tess-3-Mistral-Large-2-123B được giới thiệu cùng lúc, nổi bật với khả năng xử lý và phân tích dữ liệu lớn theo thời gian thực.
- Hệ thống này hỗ trợ các mô hình học máy phức tạp và có khả năng xử lý nhanh chóng, rất hữu ích cho các ngành cần ra quyết định nhanh chóng dựa trên dữ liệu.
- Tess-3-Mistral-Large-2-123B cung cấp sức mạnh tính toán mà trước đây không thể đạt được, tối ưu cho việc chạy các mạng nơ-ron lớn và các thuật toán học máy cần thiết cho nhận diện hình ảnh, NLP và phân tích dự đoán.
- Sự kết hợp giữa hai hệ thống này cho phép các tổ chức khai thác AI theo những cách chưa từng có.
- Các đóng góp của Migel Tissera thể hiện sự hiểu biết sâu sắc về bối cảnh công nghệ và khả năng dự đoán nhu cầu tương lai.
- Những dự án này không chỉ giải quyết các thách thức của ngành mà còn đặt nền móng cho các hệ thống tính toán và phát triển AI trong tương lai.
- Khi được áp dụng rộng rãi, Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B sẽ thúc đẩy sự tiến bộ công nghệ đáng kể, nâng cao hiệu quả, độ chính xác và đổi mới.
📌 Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B đánh dấu bước tiến lớn trong công nghệ AI và tính toán, với khả năng xử lý dữ liệu lớn và nhanh chóng, tạo ra những cơ hội mới cho các ngành công nghiệp trong tương lai.
https://www.marktechpost.com/2024/08/09/trinity-2-codestral-22b-and-tess-3-mistral-large-2-123b-released-pioneering-open-source-advances-in-computational-power-and-ai-integration/
• HuggingFace vừa phát hành Idefics3-8B-Llama3, một mô hình đa phương thức tiên tiến được thiết kế để cải thiện khả năng hỏi đáp tài liệu.
• Mô hình này kết hợp SigLip vision backbone với Llama 3.1 text backbone, hỗ trợ đầu vào văn bản và hình ảnh với tối đa 10.000 token ngữ cảnh.
• Idefics3-8B-Llama3 được cấp phép theo Apache 2.0, đại diện cho một bước tiến đáng kể so với các phiên bản trước đó.
• Mô hình có 8,5 tỷ tham số, cho phép xử lý các đầu vào đa dạng, bao gồm cả tài liệu phức tạp có cả văn bản và hình ảnh.
• Cải tiến bao gồm xử lý tốt hơn các token hình ảnh bằng cách mã hóa hình ảnh thành 169 token hình ảnh và tích hợp bộ dữ liệu tinh chỉnh mở rộng như Docmatix.
• Mục tiêu của phương pháp này là tinh chỉnh khả năng hiểu tài liệu và cải thiện hiệu suất tổng thể trong các tác vụ đa phương thức.
• Đánh giá hiệu suất cho thấy Idefics3-8B-Llama3 đạt độ chính xác 87,7% trong DocVQA và 55,9% trong MMStar, so với 49,5% trong DocVQA và 45,2% trong MMMU của Idefics2.
• Kết quả này cho thấy những cải tiến đáng kể trong việc xử lý các truy vấn dựa trên tài liệu và suy luận hình ảnh.
• Khả năng quản lý tối đa 10.000 token ngữ cảnh và tích hợp với các công nghệ tiên tiến góp phần vào những cải thiện hiệu suất này.
• Idefics3-8B-Llama3 đại diện cho một bước tiến lớn trong xử lý tài liệu đa phương thức, giải quyết các hạn chế trước đây và mang lại độ chính xác và hiệu quả cao hơn.
• Mô hình này cung cấp một công cụ có giá trị cho các ứng dụng yêu cầu tích hợp dữ liệu văn bản và hình ảnh phức tạp.
• Những cải tiến trong hỏi đáp tài liệu và suy luận hình ảnh nhấn mạnh tiềm năng của nó cho nhiều trường hợp sử dụng khác nhau.
📌 Idefics3-8B-Llama3, mô hình đa phương thức mới từ HuggingFace, đạt độ chính xác 87,7% trong DocVQA và 55,9% trong MMStar. Với 8,5 tỷ tham số và khả năng xử lý 10.000 token ngữ cảnh, mô hình hứa hẹn cải thiện đáng kể hiệu suất trong hỏi đáp tài liệu và suy luận hình ảnh.
https://www.marktechpost.com/2024/08/09/idefics3-8b-llama3-released-an-open-multimodal-model-that-accepts-arbitrary-sequences-of-image-and-text-inputs-and-produces-text-outputs/
• Xu hướng mới trong AI đang hướng tới các mô hình ngôn ngữ nhỏ hơn, rẻ hơn thay vì các mô hình lớn như ChatGPT.
• Các công ty như Arcee.AI đang phát triển mô hình AI nhỏ gọn, tập trung vào các tác vụ cụ thể trong doanh nghiệp thay vì cố gắng làm mọi thứ như ChatGPT.
• Lý do cho xu hướng này bao gồm: cải tiến công nghệ, nhận thức về nhu cầu năng lượng lớn của các mô hình lớn, và cơ hội thị trường cung cấp nhiều lựa chọn AI đa dạng hơn cho doanh nghiệp.
• Các mô hình nhỏ không chỉ rẻ hơn để xây dựng mà còn rẻ hơn để sử dụng, giúp giảm rào cản áp dụng AI cho doanh nghiệp.
• Hugging Face đã phát hành bộ ba mô hình mã nguồn mở SmolLM, đủ nhỏ gọn để chạy trực tiếp trên smartphone và laptop.
• Arcee.AI đã gọi vốn 24 triệu USD, phát triển mô hình nhỏ trả lời câu hỏi về thuế cho Thomson Reuters và chatbot huấn luyện nghề nghiệp cho Guild.
• Guild cho biết mô hình nhỏ của Arcee được nhân viên ưa thích hơn ChatGPT trong 93% trường hợp.
• Các "ông lớn" như OpenAI cũng đang đa dạng hóa sản phẩm, giới thiệu phiên bản "mini" của GPT-4 để cạnh tranh.
• Không có định nghĩa thống nhất về mô hình nhỏ, nhưng thường được hiểu là có dưới 70 tỷ tham số.
• Xu hướng này có thể tiếp tục phát triển khi các nhà đầu tư ngày càng lo ngại về chi phí cao và lợi nhuận không chắc chắn của các dự án AI lớn.
📌 Xu hướng mô hình AI nhỏ gọn đang nổi lên, với các công ty như Arcee.AI gọi vốn 24 triệu USD và Hugging Face ra mắt SmolLM. Các "ông lớn" như OpenAI cũng tham gia cuộc đua với phiên bản mini GPT-4. Mô hình nhỏ hứa hẹn tiết kiệm chi phí và năng lượng, đồng thời mở rộng khả năng ứng dụng AI cho doanh nghiệp.
https://www.bloomberg.com/news/articles/2024-08-08/move-over-llms-small-ai-models-are-the-next-big-thing
• SEA-LION là một nhóm các mô hình ngôn ngữ nguồn mở được phát triển bởi AI Singapore, nhằm hiểu rõ hơn về bối cảnh, ngôn ngữ và văn hóa đa dạng của Đông Nam Á.
• Phiên bản đầu tiên của SEA-LION được phát hành vào tháng 12/2023, được đào tạo từ đầu bằng SEA-LION-PILE (khoảng 1 nghìn tỷ token).
• Phiên bản mới nhất (v2) dựa trên việc tiếp tục đào tạo trước mô hình Llama 3 nguồn mở.
• SEA-LION hoàn toàn minh bạch và nguồn mở, bao gồm dữ liệu đào tạo trước, mã đào tạo mô hình, trọng số mô hình, dữ liệu tinh chỉnh và các điểm chuẩn đánh giá.
• Các tính năng chính của SEA-LION v2:
- Tiếp tục đào tạo trước và tinh chỉnh từ Llama 3
- Được hướng dẫn bằng tiếng Anh, Bahasa Indonesia, Thái, Việt và Tamil
- Đào tạo với tối đa 50 tỷ token từ các ngôn ngữ Đông Nam Á
- Vượt trội hơn Llama 3 cơ sở và các mô hình khác trong cả khả năng chung và khả năng đặc thù cho Đông Nam Á
• SEA-LION v2 có sẵn để tải xuống trên HuggingFace với các phiên bản mô hình cơ sở, mô hình được hướng dẫn và mô hình lượng tử hóa.
• Mô hình đạt hiệu suất tốt hơn hoặc cạnh tranh trên các tác vụ bằng ngôn ngữ khu vực trong khi vẫn giữ được hiệu suất chung của Llama 3.
• Đánh giá toàn diện bao gồm các tác vụ NLP truyền thống và các bài kiểm tra chẩn đoán ngôn ngữ và văn hóa được thiết kế riêng cho Đông Nam Á.
• SEA-LION có thể được triển khai bằng Text Generation Inference (TGI), vLLM hoặc Ollama.
• Dự án chào đón sự đóng góp từ cộng đồng trong việc báo cáo lỗi, cải thiện tài liệu, thêm các tác vụ đánh giá mô hình và đào tạo các phiên bản mô hình bằng nhiều ngôn ngữ Đông Nam Á hơn.
📌 SEA-LION là mô hình ngôn ngữ nguồn mở tiên phong cho Đông Nam Á, vượt trội Llama 3 trong hiểu biết ngôn ngữ và văn hóa khu vực. Với 50 tỷ token đào tạo, nó hỗ trợ 5 ngôn ngữ chính và mở ra cơ hội mới cho AI đa ngôn ngữ trong khu vực.
https://github.com/aisingapore/sealion
• Google vừa công bố Gemma 2 2B, một mô hình AI nhỏ gọn nhưng mạnh mẽ với chỉ 2,6 tỷ tham số.
• Mặc dù kích thước nhỏ, Gemma 2 2B đạt hiệu suất ngang bằng hoặc vượt trội so với các mô hình lớn hơn như GPT-3.5 của OpenAI và Mixtral 8x7B của Mistral AI.
• Trong bài kiểm tra độc lập của tổ chức nghiên cứu AI LMSYS, Gemma 2 2B đạt điểm 1.130, cao hơn một chút so với GPT-3.5-Turbo-0613 (1.117) và Mixtral-8x7B (1.114).
• Mô hình này đạt 56,1 điểm trong bài kiểm tra MMLU (Massive Multitask Language Understanding) và 36,6 điểm trong MBPP (Mostly Basic Python Programming).
• Thành công của Gemma 2 2B thách thức quan điểm cho rằng mô hình lớn hơn luôn hoạt động tốt hơn, cho thấy kỹ thuật huấn luyện tiên tiến và bộ dữ liệu chất lượng cao có thể bù đắp cho số lượng tham số.
• Google đã huấn luyện Gemma 2 2B trên bộ dữ liệu khổng lồ gồm 2 nghìn tỷ token sử dụng phần cứng TPU v5e tiên tiến.
• Mô hình này hỗ trợ đa ngôn ngữ, mở rộng tiềm năng ứng dụng toàn cầu.
• Gemma 2 2B được phát hành dưới dạng nguồn mở, cho phép các nhà nghiên cứu và nhà phát triển truy cập thông qua Hugging Face và Gradio.
• Việc phát triển Gemma 2 2B nhấn mạnh tầm quan trọng ngày càng tăng của kỹ thuật nén và chưng cất mô hình AI.
• Bằng cách chưng cất kiến thức từ các mô hình lớn hơn thành các mô hình nhỏ hơn, các nhà nghiên cứu có thể tạo ra các công cụ AI dễ tiếp cận hơn mà không ảnh hưởng đến hiệu suất.
• Phương pháp này không chỉ giảm yêu cầu tính toán mà còn giải quyết các lo ngại về tác động môi trường của việc huấn luyện và vận hành các mô hình AI lớn.
• Xu hướng hướng tới các mô hình AI hiệu quả hơn đang gia tăng trong ngành công nghiệp, khi các công ty tập trung vào việc tạo ra các hệ thống nhỏ hơn, hiệu quả hơn có thể chạy trên phần cứng tiêu dùng.
• Sự ra mắt của Gemma 2 2B đánh dấu một bước tiến quan trọng trong việc dân chủ hóa công nghệ AI, mở ra khả năng tiếp cận các khả năng AI tiên tiến mà không cần siêu máy tính đắt tiền.
📌 Gemma 2 2B của Google với 2,6 tỷ tham số vượt trội so với các mô hình lớn hơn 10 lần như GPT-3.5. Mô hình nguồn mở này đạt 1.130 điểm trong bài kiểm tra LMSYS, 56,1 điểm MMLU và 36,6 điểm MBPP, mở ra kỷ nguyên mới cho AI nhỏ gọn, hiệu quả và dễ tiếp cận.
https://venturebeat.com/ai/googles-tiny-ai-model-gemma-2-2b-challenges-tech-giants-in-surprising-upset/
• Mô hình ngôn ngữ nhỏ (SLM) đang được chú ý sau khi OpenAI ra mắt GPT-4o mini, nhưng chuyên gia cảnh báo rằng những mô hình nhẹ và tiết kiệm chi phí này sẽ không phải là giải pháp toàn diện cho các doanh nghiệp.
• GPT-4o mini có hiệu suất tốt, đặc biệt trong lĩnh vực suy luận toán học. Nó đạt 82% về hiểu ngôn ngữ đa nhiệm và 87% về toán học đa ngôn ngữ cấp tiểu học.
• Ưu điểm lớn nhất của GPT-4o mini là chi phí. Với giá 5 cent cho mỗi triệu token đầu vào và 60 cent cho mỗi triệu token đầu ra, GPT-4o rẻ hơn 60% so với GPT-3.5 Turbo.
• Microsoft cũng đã ra mắt Phi 3 - một dòng SLM được thiết kế để việc tinh chỉnh hoặc tùy chỉnh dễ dàng và rẻ hơn, với yêu cầu tính toán thấp hơn.
• Chi phí của các mô hình phụ thuộc vào số lượng GPU cần thiết để triển khai. Mô hình càng nhỏ thì càng cần ít GPU và do đó chi phí càng thấp.
• Tuy nhiên, có một "lỗi ẩn" trong cuộc thảo luận về SLM. Mặc dù khả năng của chúng "đủ tốt để bắt đầu" nhưng không "đủ tốt để thực sự đưa vào sản xuất".
• SLM thường được xây dựng để xuất sắc trong các lĩnh vực cụ thể, tạo ra rào cản khi công ty cố gắng làm việc với các mô hình ngoài phạm vi khả năng của chúng.
• Người dùng nên cẩn thận khi đánh giá mục đích sử dụng SLM. Nếu phù hợp với các tiêu chuẩn mà mô hình đạt được cao nhất, người dùng sẽ thấy kết quả tích cực. Tuy nhiên, không nên kỳ vọng hiệu suất tốt trên tất cả các chức năng của SLM.
• Tương lai có thể sẽ không yêu cầu doanh nghiệp lựa chọn hoàn toàn giữa SLM và mô hình ngôn ngữ lớn (LLM). Không một mô hình nào có thể phục vụ đầy đủ cho các trường hợp sử dụng ở cấp độ doanh nghiệp, chuyên gia.
• Nhiều mô hình cần phải kết hợp với nhau - làm việc cùng nhau một cách đồng bộ - theo cách gần như tự động để đạt được kết quả mong muốn.
• Giống như doanh nghiệp hiện đang áp dụng chiến lược đa đám mây khi xây dựng kiến trúc đám mây, các công ty cũng cần suy nghĩ về tương lai AI của họ theo cách tương tự.
📌 SLM như GPT-4o mini của OpenAI có ưu điểm về chi phí, rẻ hơn 60% so với GPT-3.5 Turbo. Tuy nhiên, chúng có hạn chế về khả năng và phạm vi ứng dụng. Chuyên gia khuyến nghị doanh nghiệp nên xây dựng hệ sinh thái AI đa dạng, kết hợp nhiều mô hình để đáp ứng nhu cầu sử dụng ở cấp độ doanh nghiệp.
https://www.itpro.com/technology/artificial-intelligence/small-language-models-are-growing-in-popularity-but-they-have-a-hidden-fallacy-that-enterprises-must-come-to-terms-with
• Mô hình ngôn ngữ nhỏ (SLM) đang trở thành xu hướng mới trong lĩnh vực AI, mang lại cơ hội cho các doanh nghiệp nhỏ và vừa tiếp cận công nghệ AI tiên tiến với chi phí thấp hơn.
• SLM là phiên bản thu nhỏ của các mô hình AI lớn, với số lượng tham số từ vài triệu đến vài tỷ, thay vì hàng trăm tỷ như GPT-3 hay GPT-4.
• Ưu điểm lớn nhất của SLM là khả năng chạy trên các thiết bị có khả năng xử lý hạn chế như điện thoại thông minh hay thiết bị IoT, mang AI đến gần hơn với người dùng cuối.
• Chi phí phát triển và triển khai SLM thấp hơn nhiều so với các mô hình lớn, giúp các startup có nguồn lực hạn chế vẫn có thể cạnh tranh với các gã khổng lồ công nghệ.
• SLM tiêu thụ ít năng lượng hơn, giảm chi phí vận hành và có lợi cho môi trường, phù hợp với xu hướng phát triển bền vững.
• Ưu thế lớn nhất của SLM là khả năng ứng dụng chuyên biệt trong các lĩnh vực ngách. Dù không đa năng như mô hình lớn, SLM có thể được tối ưu hóa để hoạt động hiệu quả trong các tác vụ cụ thể.
• SLM dễ dàng kiểm tra và cải thiện hơn do kích thước nhỏ, giúp giảm thiểu các vấn đề về đạo đức AI như thiên kiến.
• Khả năng triển khai cục bộ của SLM giúp bảo vệ thông tin nhạy cảm, phù hợp với các ngành như tài chính, y tế.
• SLM tạo cơ hội cho doanh nghiệp nhỏ bằng cách giảm rào cản gia nhập, cải thiện hiệu suất, rút ngắn thời gian ra thị trường, tạo ra các ứng dụng AI cạnh tranh.
• Trong tương lai, SLM có thể bổ sung hoặc thay thế các mô hình lớn trong một số ứng dụng nhất định, mở ra cơ hội đổi mới và cạnh tranh cho các công ty nhỏ hơn.
• Bằng cách tập trung vào lợi thế độc đáo của SLM, các doanh nghiệp có thể tạo ra các giải pháp AI sáng tạo, hiệu quả và mục tiêu, có tiềm năng cách mạng hóa nhiều ngành công nghiệp.
📌 SLM đang mở ra cơ hội cho doanh nghiệp nhỏ tiếp cận AI với chi phí thấp. Với ưu điểm về triển khai cục bộ, tiết kiệm năng lượng và ứng dụng chuyên biệt, SLM có thể thay đổi cục diện ngành AI, tạo sân chơi bình đẳng hơn cho các startup đổi mới sáng tạo.
https://www.entrepreneur.com/science-technology/no-more-chatgpt-heres-why-small-language-models-are/476700
- Apple vừa công bố mở mã nguồn mô hình ngôn ngữ DCLM Baseline-7B, một phần của dự án Decentralized Compute Language Models (DCLM).
- Mô hình này được huấn luyện trên tập dữ liệu khổng lồ gồm 1,5 nghìn tỷ token, bao gồm cả dữ liệu từ trang web, sách và bài báo.
- Kết quả cho thấy DCLM Baseline-7B vượt trội hơn cả mô hình LLaMA-2 7B của Meta trên các bài kiểm tra chuẩn như MMLU (71,6% so với 69,0%) và HellaSwag (79,2% so với 77,8%).
- DCLM Baseline-7B cũng đạt điểm cao hơn trên bài kiểm tra TruthfulQA với 61,4% so với 58,1% của LLaMA-2 7B.
- Apple hy vọng việc mở mã nguồn sẽ thúc đẩy nghiên cứu và phát triển các mô hình ngôn ngữ phi tập trung (decentralized language models).
- Hiện tại mô hình và mã nguồn của DCLM Baseline-7B đã được công bố trên kho lưu trữ GitHub của Apple.
- Đây là một bước tiến quan trọng của Apple trong lĩnh vực AI, đặc biệt là các mô hình ngôn ngữ quy mô lớn.
📌 Apple vừa tạo tiếng vang lớn khi mở mã nguồn mô hình ngôn ngữ DCLM Baseline-7B, vượt trội hơn cả LLaMA-2 7B của Meta trên các bài kiểm tra chuẩn như MMLU (71,6%) và HellaSwag (79,2%). Bước đi này hứa hẹn thúc đẩy mạnh mẽ nghiên cứu về các mô hình ngôn ngữ phi tập trung.
Citations:
[1] https://analyticsindiamag.com/ai-news-updates/apple-open-sources-dclm-baseline-7b-outperforms-metas-llama-2/
- OpenAI giới thiệu GPT-4o mini, mô hình AI nhỏ gọn và tiết kiệm chi phí nhất, mở rộng đáng kể phạm vi ứng dụng AI với giá cả phải chăng.
- GPT-4o mini đạt 82% trên bài kiểm tra MMLU, vượt trội hơn GPT-4 trên bảng xếp hạng LMSYS. Giá 0,15 USD/triệu token đầu vào và 0,60 USD/triệu token đầu ra, rẻ hơn 60% so với GPT-3.5 Turbo.
- Mô hình hỗ trợ văn bản và thị giác trong API, sắp tới sẽ hỗ trợ đầu vào/ra văn bản, hình ảnh, video, âm thanh. Cửa sổ ngữ cảnh 128K token, hỗ trợ tối đa 16K token đầu ra/yêu cầu, kiến thức đến 10/2023.
- GPT-4o mini vượt trội các mô hình nhỏ khác về trí tuệ văn bản và lập luận đa phương thức. Điểm số trên các bài kiểm tra: MMLU 82%, MGSM 87%, HumanEval 87,2%, MMMU 59,4%.
- Các đối tác tin cậy như Ramp, Superhuman nhận thấy GPT-4o mini hoạt động tốt hơn đáng kể so với GPT-3.5 Turbo trong trích xuất dữ liệu có cấu trúc, tạo email chất lượng cao.
- GPT-4o mini có các biện pháp an toàn tích hợp như GPT-4o, được đánh giá kỹ lưỡng bởi hơn 70 chuyên gia. Áp dụng phương pháp "hệ thống chỉ dẫn phân cấp" để cải thiện khả năng chống lại các cuộc tấn công.
- GPT-4o mini hiện có sẵn dưới dạng mô hình văn bản và thị giác trong API. Người dùng ChatGPT Free, Plus, Team có quyền truy cập từ hôm nay, người dùng Enterprise từ tuần tới.
- OpenAI cam kết tiếp tục giảm chi phí và nâng cao khả năng mô hình. Chi phí mỗi token của GPT-4o mini đã giảm 99% kể từ text-davinci-003 năm 2022.
📌 GPT-4o mini đánh dấu bước tiến mới trong việc đưa AI đến gần hơn với đại chúng nhờ chi phí thấp và khả năng mạnh mẽ. Mô hình đạt điểm số ấn tượng trên các bài kiểm tra học thuật như MMLU 82%, MGSM 87%, HumanEval 87,2%, đồng thời tích hợp các biện pháp an toàn. Với mức giá 0,15 USD/triệu token đầu vào và 0,60 USD/triệu token đầu ra, GPT-4o mini hứa hẹn thúc đẩy sự phát triển của các ứng dụng AI mạnh mẽ và hiệu quả hơn.
https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
• Nvidia và startup Pháp Mistral AI vừa công bố mô hình ngôn ngữ mới Mistral-NeMo, nhằm mang khả năng AI mạnh mẽ trực tiếp đến máy tính doanh nghiệp.
• Mistral-NeMo có 12 tỷ tham số và cửa sổ ngữ cảnh 128.000 token, là công cụ mạnh mẽ cho doanh nghiệp muốn triển khai AI mà không cần nhiều tài nguyên đám mây.
• Mô hình được phát hành dưới giấy phép Apache 2.0, cho phép sử dụng thương mại.
• Bryan Catanzaro, Phó chủ tịch nghiên cứu học sâu ứng dụng tại Nvidia, nhấn mạnh tính dễ tiếp cận và hiệu quả của mô hình.
• Mistral-NeMo có thể chạy trên GPU RTX phổ biến mà nhiều người đã có sẵn, giúp dân chủ hóa khả năng AI tiên tiến.
• Cửa sổ ngữ cảnh 128.000 token cho phép mô hình xử lý và hiểu các đoạn văn bản lớn hơn nhiều so với đối thủ cạnh tranh.
• Tính năng này đặc biệt hữu ích cho doanh nghiệp xử lý tài liệu dài, phân tích phức tạp hoặc nhiệm vụ lập trình phức tạp.
• Khả năng triển khai cục bộ có thể thu hút các doanh nghiệp hoạt động trong môi trường kết nối internet hạn chế hoặc có yêu cầu bảo mật dữ liệu nghiêm ngặt.
• Mô hình nhắm đến việc sử dụng trên laptop và máy tính để bàn hơn là điện thoại thông minh.
• Mistral-NeMo có thể làm gián đoạn đáng kể thị trường phần mềm AI bằng cách giải quyết các vấn đề như quyền riêng tư dữ liệu, độ trễ và chi phí cao liên quan đến giải pháp dựa trên đám mây.
• Động thái này có thể san bằng sân chơi, cho phép các doanh nghiệp nhỏ hơn với nguồn lực hạn chế tận dụng khả năng AI trước đây chỉ có thể tiếp cận bởi các tập đoàn lớn.
• Mô hình hiện có sẵn dưới dạng Neural Interface Model (NIM) thông qua nền tảng AI của Nvidia, với phiên bản có thể tải xuống sẽ được cung cấp trong tương lai gần.
📌 Mistral-NeMo, mô hình AI 12 tỷ tham số, hợp tác giữa Nvidia và Mistral AI, mang khả năng AI mạnh mẽ đến máy tính doanh nghiệp. Với cửa sổ ngữ cảnh 128.000 token và khả năng chạy trên GPU RTX phổ biến, mô hình hứa hẹn dân chủ hóa AI cho doanh nghiệp mọi quy mô.
https://venturebeat.com/ai/nvidia-and-mistrals-new-model-mistral-nemo-brings-enterprise-grade-ai-to-desktop-computers/
• OpenAI vừa ra mắt GPT-4o Mini, một mô hình AI nhẹ hơn và rẻ hơn 60% so với các mô hình đầy đủ, nhưng vẫn mạnh mẽ hơn GPT-3.5.
• GPT-4o Mini sẽ thay thế GPT-3.5 Turbo cho người dùng ChatGPT ở các gói Free, Plus và Team từ hôm nay. Người dùng Enterprise sẽ được tiếp cận vào tuần tới.
• Mô hình mới hỗ trợ văn bản và hình ảnh trong API, và sẽ sớm xử lý được tất cả đầu vào và đầu ra đa phương thức như video và âm thanh.
• GPT-4o Mini đạt 82% điểm trong bài kiểm tra chuẩn MMLU, cao hơn so với 70% của GPT-3.5. Tuy nhiên, vẫn thấp hơn 88,7% của GPT-4 và 90% của Google Gemini Ultra.
• Mục tiêu là cung cấp một công cụ nhẹ và rẻ tiền cho các nhà phát triển tạo ra các ứng dụng và công cụ mà họ không đủ khả năng với mô hình lớn hơn, đắt tiền hơn như GPT-4.
• Startup fintech Ramp đã thử nghiệm GPT-4o Mini để xây dựng công cụ trích xuất dữ liệu chi phí từ hóa đơn. Superhuman cũng sử dụng nó để tạo tính năng tự động gợi ý phản hồi email.
• OpenAI cho biết việc phát triển GPT-4o Mini chậm trễ do ưu tiên tập trung vào các mô hình lớn hơn như GPT-4. Tuy nhiên, họ nhận thấy xu hướng các nhà phát triển muốn sử dụng mô hình nhỏ hơn.
• Olivier Godement, người đứng đầu sản phẩm nền tảng API của OpenAI, kỳ vọng GPT-4o Mini sẽ rất phổ biến, thu hút cả các ứng dụng hiện có và nhiều ứng dụng mới.
• GPT-4o Mini cạnh tranh trực tiếp với các mô hình nhẹ khác như Google's Gemini 1.5 Flash và Anthropic's Claude 3 Haiku.
• Mặc dù có nhiều khả năng, GPT-4o Mini vẫn được thiết kế cho các tác vụ đơn giản, không phải để xây dựng trợ lý ảo phức tạp như Siri với chi phí thấp.
• Các nhà nghiên cứu vẫn thận trọng với các bài kiểm tra chuẩn như MMLU, do cách thức thực hiện khác nhau giữa các công ty và khả năng AI có thể "gian lận" nếu đã có dữ liệu câu trả lời trong bộ dữ liệu huấn luyện.
📌 OpenAI ra mắt GPT-4o Mini, mô hình AI rẻ hơn đáng kể nhưng mạnh hơn GPT-3.5, đạt 82% điểm MMLU. Mục tiêu là giúp nhà phát triển tạo ứng dụng AI với chi phí thấp hơn 60%, cạnh tranh với Gemini 1.5 Flash và Claude 3 Haiku. Dự kiến sẽ thay thế GPT-3.5 Turbo trên ChatGPT và hỗ trợ đa phương thức.
https://www.theverge.com/2024/7/18/24200714/openai-new-cheaper-smarter-model-gpt-4o-mini
- Gần như tất cả các nhà cung cấp mô hình, bao gồm Microsoft, Google và các công ty khởi nghiệp như Mistral, Anthropic và Cohere, đều chuyển sang cung cấp nhiều mô hình AI vừa và nhỏ hơn.
- Các giám đốc công nghệ thông tin cho rằng đối với một số trường hợp sử dụng AI phổ biến nhất, thường liên quan đến các tác vụ hẹp, lặp đi lặp lại như phân loại tài liệu, các mô hình nhỏ hơn và vừa phải đơn giản là hợp lý hơn.
- Vì chúng sử dụng ít năng lượng tính toán hơn nên các mô hình nhỏ hơn có thể tiết kiệm chi phí vận hành.
- Sự chuyển đổi diễn ra khi các công ty từ từ triển khai nhiều trường hợp sử dụng AI hơn, đồng thời chịu áp lực phải quản lý chi phí và lợi nhuận từ công nghệ đắt tiền này.
- Công ty dịch vụ thế chấp phi ngân hàng Mr. Cooper đang thử nghiệm khả năng của các mô hình vừa phải trong trung tâm cuộc gọi để phân tích dữ liệu giọng nói nhằm giúp nhân viên hiểu khách hàng có khả năng hỏi gì.
- Ngân hàng TD gần đây đã ký hợp đồng hợp tác với nhà cung cấp mô hình AI Cohere và sẽ xem xét liệu các mô hình nhỏ hơn hoặc vừa phải của Cohere có hiệu quả và tiết kiệm chi phí hơn hay không.
- Công ty dịch vụ tiếp thị WPP đang sử dụng một số mô hình từ dòng sản phẩm Gemini của Google, bao gồm cả mô hình vừa phải Flash, phù hợp cho các trường hợp sử dụng như phân tích thói quen mua sắm ở các quốc gia khác nhau.
📌 Các công ty đang chuyển sang triển khai các mô hình AI vừa và nhỏ hơn do áp lực quản lý chi phí. Các mô hình này được đào tạo trên ít dữ liệu hơn, phù hợp cho nhiều trường hợp sử dụng phổ biến trong doanh nghiệp như phân loại tài liệu, phân tích dữ liệu giọng nói. Tuy nhiên, các mô hình lớn vẫn có giá trị cho các tác vụ phức tạp đòi hỏi nhiều dữ liệu và sáng tạo.
https://www.wsj.com/articles/these-ai-models-are-pretty-mid-thats-why-companies-love-them-710a0f72
#WSJ
• Hugging Face vừa công bố dòng mô hình ngôn ngữ nhỏ gọn SmolLM, vượt trội so với các sản phẩm tương tự từ Microsoft, Meta và Alibaba về hiệu suất.
• SmolLM có 3 kích cỡ: 135 triệu, 360 triệu và 1,7 tỷ tham số, phù hợp với nhiều loại tài nguyên tính toán khác nhau.
• Mặc dù nhỏ gọn, các mô hình này đạt kết quả vượt trội trong các bài kiểm tra về lập luận thông thường và kiến thức thế giới.
• SmolLM-135M vượt qua MobileLM-125M của Meta dù được huấn luyện với ít token hơn.
• SmolLM-360M vượt trội so với tất cả các mô hình dưới 500 triệu tham số, bao gồm cả sản phẩm từ Meta và Qwen.
• Mô hình chủ lực SmolLM-1.7B đánh bại Phi-1.5 của Microsoft, MobileLM-1.5B của Meta và Qwen2-1.5B trong nhiều bài kiểm tra.
• Hugging Face công khai toàn bộ quá trình phát triển, từ tuyển chọn dữ liệu đến các bước huấn luyện, thể hiện cam kết với giá trị nguồn mở và nghiên cứu có thể tái tạo.
• Hiệu suất ấn tượng của SmolLM đến từ việc tuyển chọn kỹ lưỡng dữ liệu huấn luyện, bao gồm Cosmopedia v2, Python-Edu và FineWeb-Edu.
• SmolLM có thể chạy trên các thiết bị cá nhân như điện thoại và laptop, loại bỏ nhu cầu điện toán đám mây, giảm chi phí và mối lo ngại về quyền riêng tư.
• Việc phát triển các mô hình nhỏ gọn nhưng mạnh mẽ như SmolLM đại diện cho một bước chuyển quan trọng trong lĩnh vực AI, giải quyết các vấn đề về tác động môi trường và quyền riêng tư dữ liệu.
• Hugging Face đã phát hành các mô hình SmolLM, bộ dữ liệu và mã huấn luyện, cho phép cộng đồng AI toàn cầu và các nhà phát triển khám phá, cải tiến và xây dựng dựa trên phương pháp tiếp cận đổi mới này.
📌 SmolLM của Hugging Face mang AI mạnh mẽ đến thiết bị cá nhân, vượt trội so với đối thủ lớn. Với 3 kích cỡ từ 135 triệu đến 1,7 tỷ tham số, các mô hình nguồn mở này đạt hiệu suất cao nhờ dữ liệu chất lượng, mở ra khả năng tiếp cận AI rộng rãi hơn mà không ảnh hưởng đến quyền riêng tư.
https://venturebeat.com/ai/hugging-faces-smollm-models-bring-powerful-ai-to-your-phone-no-cloud-required/
• Meta AI vừa công bố MobileLLM - một phương pháp mới để tạo ra các mô hình ngôn ngữ hiệu quả được thiết kế cho smartphone và các thiết bị có tài nguyên hạn chế khác vào ngày 27/6/2024.
• Nhóm nghiên cứu gồm các thành viên từ Meta Reality Labs, PyTorch và Meta AI Research (FAIR) tập trung vào việc tối ưu hóa các mô hình có dưới 1 tỷ tham số, chỉ bằng một phần nhỏ so với các mô hình như GPT-4 ước tính có hơn một nghìn tỷ tham số.
• Các đổi mới chính trong MobileLLM bao gồm:
- Ưu tiên chiều sâu mô hình hơn chiều rộng
- Triển khai chia sẻ embedding và grouped-query attention
- Sử dụng kỹ thuật chia sẻ trọng số theo khối ngay lập tức mới
• Những lựa chọn thiết kế này giúp MobileLLM vượt trội hơn 2,7% đến 4,3% so với các mô hình trước đó có kích thước tương tự trong các tác vụ benchmark phổ biến.
• Đáng chú ý, phiên bản 350 triệu tham số của MobileLLM cho thấy độ chính xác tương đương với mô hình LLaMA-2 7 tỷ tham số lớn hơn nhiều trong một số tác vụ gọi API cụ thể.
• Sự phát triển của MobileLLM phù hợp với xu hướng ngày càng tăng về các mô hình AI hiệu quả hơn. Khi tiến bộ trong các mô hình ngôn ngữ rất lớn có dấu hiệu chậm lại, các nhà nghiên cứu ngày càng khám phá tiềm năng của các thiết kế nhỏ gọn, chuyên biệt hơn.
• MobileLLM được xếp vào cùng danh mục với các Mô hình Ngôn ngữ Nhỏ (SLM) mặc dù có "LLM" trong tên.
• Meta đã mở mã nguồn code pre-training, cho phép các nhà nghiên cứu khác phát triển dựa trên công việc của họ.
• Sự phát triển của MobileLLM đại diện cho một bước quan trọng trong việc làm cho AI tiên tiến trở nên dễ tiếp cận và bền vững hơn. Nó thách thức quan niệm cho rằng các mô hình ngôn ngữ hiệu quả phải rất lớn.
• Công nghệ này có thể mở ra những hướng đi mới cho các ứng dụng AI trên thiết bị cá nhân, mặc dù thời gian và khả năng chính xác vẫn chưa chắc chắn.
📌 Meta AI phát triển MobileLLM - mô hình ngôn ngữ nhỏ gọn 350 triệu tham số cho smartphone, hiệu suất tương đương LLaMA-2 7 tỷ tham số trong một số tác vụ. Đây là bước tiến quan trọng hướng tới AI hiệu quả và bền vững hơn trên thiết bị di động.
https://venturebeat.com/ai/meta-ai-develops-compact-language-model-for-mobile-devices/
• InternLM vừa công bố mô hình ngôn ngữ lớn nguồn mở mới nhất InternLM2.5-7B-Chat, có sẵn ở định dạng GGUF và tương thích với llama.cpp.
• Mô hình có thể được sử dụng cục bộ và trên đám mây trên nhiều nền tảng phần cứng khác nhau. Định dạng GGUF cung cấp các phiên bản lượng tử hóa half-precision và low-bit, bao gồm q5_0, q5_k_m, q6_k và q8_0.
• InternLM2.5 dựa trên phiên bản tiền nhiệm, cung cấp mô hình cơ sở 7 tỷ tham số và mô hình chat được điều chỉnh cho các tình huống thực tế.
• Mô hình này có khả năng suy luận tiên tiến, đặc biệt là suy luận toán học, vượt trội so với các đối thủ như Llama3 và Gemma2-9B.
• InternLM2.5-7B-Chat có cửa sổ ngữ cảnh ấn tượng 1M, thể hiện hiệu suất gần như hoàn hảo trong các tác vụ ngữ cảnh dài như được đánh giá bởi LongBench.
• Khả năng xử lý ngữ cảnh dài giúp mô hình đặc biệt hiệu quả trong việc truy xuất thông tin từ các tài liệu dài. Khả năng này được tăng cường khi kết hợp với LMDeploy, một bộ công cụ để nén, triển khai và phục vụ các mô hình ngôn ngữ lớn.
• Phiên bản InternLM2.5-7B-Chat-1M được thiết kế cho suy luận ngữ cảnh dài 1M, nhưng yêu cầu tài nguyên tính toán đáng kể như 4 GPU A100-80G để hoạt động hiệu quả.
• Đánh giá hiệu suất sử dụng công cụ OpenCompass cho thấy khả năng vượt trội của mô hình trong nhiều lĩnh vực: năng lực chuyên ngành, ngôn ngữ, kiến thức, suy luận và hiểu biết.
• Trong các điểm chuẩn như MMLU, CMMLU, BBH, MATH, GSM8K và GPQA, InternLM2.5-7B-Chat liên tục mang lại hiệu suất vượt trội so với các đối thủ cùng cấp. Ví dụ, điểm chuẩn MMLU đạt 72,8, vượt qua các mô hình như Llama-3-8B-Instruct và Gemma2-9B-IT.
• InternLM2.5-7B-Chat cũng xuất sắc trong việc sử dụng công cụ, hỗ trợ thu thập thông tin từ hơn 100 trang web. Phiên bản sắp tới của Lagent sẽ tăng cường chức năng này, cải thiện khả năng tuân theo hướng dẫn, lựa chọn công cụ và phản ánh của mô hình.
• Bản phát hành của mô hình bao gồm hướng dẫn cài đặt toàn diện, hướng dẫn tải xuống mô hình và các ví dụ về suy luận và triển khai dịch vụ mô hình.
• Người dùng có thể thực hiện suy luận ngoại tuyến theo lô với mô hình lượng tử hóa bằng lmdeploy, một framework hỗ trợ lượng tử hóa INT4 weight-only và triển khai (W4A16). Thiết lập này cung cấp suy luận nhanh hơn tới 2,4 lần so với FP16 trên các GPU NVIDIA tương thích.
• Kiến trúc của InternLM2.5 giữ lại các tính năng mạnh mẽ của phiên bản tiền nhiệm đồng thời kết hợp các đổi mới kỹ thuật mới. Những cải tiến này, được thúc đẩy bởi một kho dữ liệu tổng hợp lớn và quy trình đào tạo lặp đi lặp lại, dẫn đến một mô hình có hiệu suất suy luận được cải thiện - tăng 20% so với InternLM2.
📌 InternLM2.5-7B-Chat là mô hình ngôn ngữ lớn nguồn mở tiên tiến với khả năng suy luận vượt trội, xử lý ngữ cảnh dài 1M và sử dụng công cụ hiệu quả. Mô hình đạt điểm MMLU 72,8, vượt qua các đối thủ cùng cấp và hứa hẹn ứng dụng rộng rãi trong nghiên cứu và thực tế.
https://www.marktechpost.com/2024/07/07/internlm2-5-7b-chat-open-sourcing-large-language-models-with-unmatched-reasoning-long-context-handling-and-enhanced-tool-use/
• Các công ty công nghệ lớn và startup đang chuyển hướng phát triển các mô hình AI nhỏ hơn, rẻ hơn và chuyên biệt hóa hơn.
• Mô hình nhỏ được huấn luyện trên ít dữ liệu hơn và thường được thiết kế cho các tác vụ cụ thể. Chi phí phát triển dưới 10 triệu USD, sử dụng dưới 10 tỷ tham số.
• Microsoft đã giới thiệu dòng mô hình nhỏ Phi, chỉ bằng 1/100 kích thước của ChatGPT nhưng thực hiện nhiều tác vụ gần như tốt tương đương.
• Google, Mistral, Anthropic và Cohere cũng đã phát hành các mô hình nhỏ hơn trong năm nay. Apple cũng có kế hoạch sử dụng mô hình nhỏ để chạy hoàn toàn trên điện thoại.
• Mô hình nhỏ tiêu tốn ít năng lượng tính toán hơn, có thể trả lời câu hỏi với chi phí chỉ bằng 1/6 so với mô hình lớn trong nhiều trường hợp.
• Các doanh nghiệp đang tìm cách chạy công nghệ AI tạo sinh với chi phí thấp hơn khi lợi nhuận vẫn chưa rõ ràng.
• Mô hình nhỏ có thể được tinh chỉnh trên tập dữ liệu cụ thể như tài liệu pháp lý hay số liệu bán hàng để thực hiện các tác vụ chuyên biệt hiệu quả như mô hình lớn nhưng với chi phí thấp hơn nhiều.
• Experian đã chuyển từ mô hình lớn sang mô hình nhỏ cho chatbot AI tư vấn tài chính và dịch vụ khách hàng, cho hiệu suất tương đương nhưng chi phí thấp hơn nhiều.
• Mô hình nhỏ cũng nhanh hơn và tránh được vấn đề độ trễ của mô hình lớn.
• Xu hướng này xuất hiện khi tiến bộ của các mô hình lớn công khai đang chậm lại. Kể từ khi OpenAI phát hành GPT-4, chưa có mô hình mới nào có bước tiến tương đương.
• Tuy nhiên, các công ty vẫn không từ bỏ mô hình lớn hoàn toàn. Apple đã tích hợp ChatGPT vào Siri, Microsoft tích hợp mô hình mới nhất của OpenAI vào Windows.
📌 Các công ty công nghệ lớn đang chuyển hướng sang mô hình AI nhỏ hơn để giảm chi phí và tăng hiệu suất. Mô hình nhỏ có thể được tinh chỉnh cho các tác vụ cụ thể, tiêu tốn ít năng lượng hơn và có chi phí chỉ bằng 1/6 mô hình lớn. Tuy nhiên, các mô hình lớn vẫn được sử dụng cho một số ứng dụng.
https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98
#WSJ
• Salesforce vừa công bố mô hình AI xLAM-1B, được gọi là "Tiny Giant", chỉ có 1 tỷ tham số nhưng vượt trội các mô hình lớn hơn nhiều trong các tác vụ gọi hàm, bao gồm cả các mô hình từ OpenAI và Anthropic.
• Thành công của xLAM-1B đến từ phương pháp tiếp cận sáng tạo của Salesforce AI Research trong việc tạo dữ liệu. Họ đã phát triển APIGen, một pipeline tự động tạo ra các bộ dữ liệu chất lượng cao, đa dạng và có thể xác minh để huấn luyện các mô hình AI trong các ứng dụng gọi hàm.
• Mô hình xLAM-1B đạt hiệu suất vượt trội, vượt qua GPT-3.5-Turbo và Claude-3 Haiku trong các đánh giá trên Berkeley Function-Calling Benchmark.
• Kích thước nhỏ gọn của xLAM-1B làm cho nó phù hợp cho các ứng dụng trên thiết bị, nơi các mô hình lớn hơn không thực tế. Điều này có ý nghĩa quan trọng đối với AI doanh nghiệp, cho phép tạo ra các trợ lý AI mạnh mẽ và phản hồi nhanh hơn có thể chạy cục bộ trên smartphone hoặc các thiết bị có tài nguyên tính toán hạn chế.
• Chìa khóa thành công của xLAM-1B nằm ở chất lượng và sự đa dạng của dữ liệu huấn luyện. Pipeline APIGen tận dụng 3.673 API có thể thực thi trên 21 danh mục khác nhau, với mỗi điểm dữ liệu trải qua quy trình xác minh ba giai đoạn nghiêm ngặt.
• Phương pháp này đại diện cho một sự thay đổi đáng kể trong chiến lược phát triển AI. Trong khi nhiều công ty đang chạy đua để xây dựng các mô hình ngày càng lớn hơn, phương pháp của Salesforce cho thấy việc tạo dữ liệu thông minh hơn có thể dẫn đến các hệ thống AI hiệu quả và hiệu suất cao hơn.
• Thành công của xLAM-1B có thể thúc đẩy sự phát triển của các ứng dụng AI trên thiết bị. Hiện tại, nhiều tính năng AI tiên tiến phụ thuộc vào điện toán đám mây do kích thước và độ phức tạp của các mô hình. Nếu các mô hình nhỏ hơn như xLAM-1B có thể cung cấp khả năng tương tự, nó có thể cho phép các trợ lý AI mạnh mẽ hơn chạy trực tiếp trên thiết bị của người dùng.
• Nhóm nghiên cứu đã công khai bộ dữ liệu gồm 60.000 ví dụ gọi hàm chất lượng cao, một động thái có thể thúc đẩy tiến bộ trong lĩnh vực này.
• CEO Salesforce Marc Benioff đã ca ngợi thành tựu này trên Twitter, nhấn mạnh tiềm năng cho "AI tác nhân trên thiết bị". Sự phát triển này có thể đánh dấu một bước chuyển lớn trong bối cảnh AI, thách thức quan niệm rằng các mô hình lớn hơn luôn tốt hơn.
• Thành công của xLAM-1B có thể thúc đẩy một làn sóng phát triển AI mới tập trung vào việc tạo ra các mô hình siêu hiệu quả được thiết kế cho các tác vụ cụ thể, thay vì các mô hình khổng lồ đa năng.
📌 Salesforce đã tạo ra bước đột phá với mô hình AI xLAM-1B chỉ 1 tỷ tham số nhưng vượt trội các đối thủ lớn hơn. Thành công này có thể thay đổi cách tiếp cận phát triển AI, hướng tới các mô hình nhỏ gọn, hiệu quả cho ứng dụng trên thiết bị, mở ra kỷ nguyên mới cho AI phân tán và tiết kiệm năng lượng.
https://venturebeat.com/ai/salesforce-proves-less-is-more-xlam-1b-tiny-giant-beats-bigger-ai-models/
• Gnani.ai, một startup có trụ sở tại Bengaluru, đã phát triển các mô hình ngôn ngữ nhỏ (SLM) có thể chạy trên các thiết bị edge trong contact center.
• Công ty được thành lập vào năm 2017 bởi Ganesh Gopalan, tập trung vào việc tạo ra các mô hình AI nhỏ gọn và hiệu quả.
• SLM của Gnani.ai có kích thước nhỏ hơn đáng kể so với các mô hình ngôn ngữ lớn (LLM) như GPT-4 hoặc Llama-3.
• Ưu điểm chính của SLM là khả năng chạy trên các thiết bị edge, giúp giảm độ trễ và tăng tốc độ xử lý.
• Các mô hình này được thiết kế đặc biệt cho các contact center, có thể xử lý các tác vụ như phân tích cảm xúc và tóm tắt cuộc gọi.
• SLM của Gnani.ai có thể hoạt động mà không cần kết nối internet liên tục, tăng tính bảo mật và độ tin cậy.
• Công ty đã phát triển các mô hình đa ngôn ngữ, hỗ trợ nhiều ngôn ngữ Ấn Độ và tiếng Anh.
• Gnani.ai sử dụng kỹ thuật học chuyển giao để đào tạo mô hình trên dữ liệu cụ thể của khách hàng, tăng độ chính xác.
• Các mô hình này có thể được triển khai trên nhiều loại thiết bị, từ máy tính để bàn đến thiết bị di động.
• Gnani.ai đang mở rộng ứng dụng của SLM sang các lĩnh vực khác ngoài contact center, như chăm sóc sức khỏe và giáo dục.
• Công ty đang nghiên cứu cách tích hợp SLM với các công nghệ khác như xử lý ngôn ngữ tự nhiên và nhận dạng giọng nói.
• Gnani.ai đã hợp tác với nhiều doanh nghiệp lớn ở Ấn Độ để triển khai giải pháp AI của họ.
• Startup này đã nhận được sự hỗ trợ từ các nhà đầu tư và chương trình ươm tạo ở Ấn Độ.
• Gnani.ai đang tập trung vào việc cải thiện hiệu suất và khả năng mở rộng của SLM để đáp ứng nhu cầu ngày càng tăng.
📌 Gnani.ai, startup Bengaluru, đã phát triển SLM nhỏ gọn cho contact center, chạy trên edge computing. Mô hình đa ngôn ngữ, hiệu quả hơn LLM truyền thống, có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực như chăm sóc sức khỏe và giáo dục.
• Google vừa công bố hai mô hình mới trong dòng Gemma 2: phiên bản 27B và 9B.
• Gemma 2 27B có 27 tỷ tham số, được thiết kế để xử lý các tác vụ phức tạp hơn với độ chính xác và hiểu biết ngôn ngữ sâu sắc hơn.
• Gemma 2 9B có 9 tỷ tham số, là lựa chọn nhẹ hơn nhưng vẫn mang lại hiệu suất cao, phù hợp cho các ứng dụng cần hiệu quả tính toán và tốc độ.
• Gemma 2 vượt trội hơn Llama3 70B, Qwen 72B và Command R+ trong lĩnh vực LYMSYS Chat. Mô hình 9B hiện là mô hình hoạt động tốt nhất dưới 15B tham số.
• Các mô hình Gemma 2 nhỏ hơn khoảng 2,5 lần so với Llama 3 và chỉ được huấn luyện trên 2/3 số lượng token.
• Mô hình 27B được huấn luyện trên 13 nghìn tỷ token, trong khi mô hình 9B được huấn luyện trên 8 nghìn tỷ token.
• Cả hai mô hình đều có độ dài ngữ cảnh 8192 và sử dụng Rotary Position Embeddings (RoPE) để xử lý tốt hơn các chuỗi dài.
• Gemma 2 áp dụng kỹ thuật chưng cất kiến thức để huấn luyện các mô hình nhỏ hơn 9B và 2B với sự hỗ trợ của mô hình giáo viên lớn hơn.
• Các mô hình kết hợp các lớp chú ý cục bộ và toàn cục, giúp tăng cường độ ổn định suy luận cho ngữ cảnh dài và giảm sử dụng bộ nhớ.
• Gemma 2 sử dụng phương pháp Soft Attention Capping để duy trì quá trình huấn luyện và tinh chỉnh ổn định.
• Các kỹ thuật như Exponential Moving Average (EMA), Spherical Linear Interpolation (SLERP) và Linear Interpolation with Truncated Inference (LITI) được áp dụng ở các giai đoạn huấn luyện khác nhau để tăng hiệu suất.
• Group Query Attention được triển khai với hai nhóm để tăng tốc độ suy luận.
• Các mô hình Gemma 2 có thể ứng dụng trong nhiều lĩnh vực như tự động hóa dịch vụ khách hàng, tạo nội dung, dịch thuật và công cụ giáo dục.
• Sự ra mắt của dòng Gemma 2 đánh dấu bước tiến quan trọng trong công nghệ AI, thể hiện cam kết của Google trong việc phát triển các công cụ AI mạnh mẽ nhưng hiệu quả.
📌 Google ra mắt Gemma 2 với hai phiên bản 27B và 9B, vượt trội hơn đối thủ cạnh tranh như Llama3 70B và Qwen 72B. Mô hình 9B là mô hình hoạt động tốt nhất dưới 15B tham số, được huấn luyện trên 8 nghìn tỷ token. Gemma 2 áp dụng nhiều kỹ thuật tiên tiến, hứa hẹn mang lại những đột phá trong xử lý ngôn ngữ tự nhiên.
https://www.marktechpost.com/2024/06/27/google-releases-gemma-2-series-models-advanced-llm-models-in-9b-and-27b-sizes-trained-on-13t-tokens/
• Các nhà nghiên cứu Alibaba vừa công bố mô hình nhúng văn bản mới có tên gte-Qwen2-7B-instruct, kế thừa mô hình gte-Qwen1.5-7B-instruct trước đó.
• Mô hình mới dựa trên Qwen2-7B thay vì Qwen1.5-7B, cho thấy những cải tiến của Qwen2-7B.
• Hiệu suất tăng đáng kể với điểm tổng thể cải thiện từ 67,34 lên 70,24, và chỉ số nDCG@10 cho Retrieval trên bảng xếp hạng MTEB tăng từ 57,91 lên 60,25.
• Mô hình có 7 tỷ tham số, khá lớn đối với các mô hình nhúng, và hỗ trợ độ dài chuỗi tối đa 32k token đầu vào.
• Được tích hợp với Sentence Transformers, giúp tương thích với các công cụ như LangChain, LlamaIndex, Haystack, v.v.
• Tính đến ngày 21/6/2024, gte-Qwen2-7B-instruct xếp hạng 2 trong cả đánh giá tiếng Anh và tiếng Trung trên Massive Text Embedding Benchmark (MTEB).
• Mô hình sử dụng cơ chế chú ý hai chiều để nâng cao khả năng hiểu ngữ cảnh.
• Áp dụng kỹ thuật Instruction Tuning chỉ ở phía truy vấn để tăng hiệu quả.
• Quá trình đào tạo toàn diện trên tập dữ liệu đa ngôn ngữ lớn từ nhiều lĩnh vực và tình huống khác nhau.
• Sử dụng cả dữ liệu giám sát yếu và có giám sát để hữu ích cho nhiều ngôn ngữ và nhiều tác vụ khác nhau.
• Dòng mô hình gte có hai loại: mô hình chỉ mã hóa dựa trên kiến trúc BERT và mô hình chỉ giải mã dựa trên kiến trúc LLM.
• Nhúng văn bản (Text embeddings - TEs) là biểu diễn vector thấp chiều của văn bản có kích thước khác nhau, quan trọng cho nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP).
• TEs thường được kiểm tra trên số lượng nhỏ bộ dữ liệu từ một tác vụ cụ thể, không thể hiện hiệu suất cho các tác vụ khác.
• Massive Text Embedding Benchmark (MTEB) được giới thiệu để giải quyết vấn đề này, bao gồm 8 tác vụ nhúng, 58 bộ dữ liệu và 112 ngôn ngữ.
📌 Alibaba công bố mô hình nhúng văn bản gte-Qwen2-7B-instruct mới dựa trên Qwen2-7B, cải thiện hiệu suất từ 67,34 lên 70,24 điểm trên MTEB. Mô hình 7 tỷ tham số này hỗ trợ 32k token đầu vào, tích hợp với nhiều công cụ NLP và xếp hạng 2 cho cả tiếng Anh và tiếng Trung.
https://www.marktechpost.com/2024/06/21/alibaba-ai-researchers-released-a-new-gte-qwen2-7b-instruct-embedding-model-based-on-the-qwen2-7b-model-with-better-performance/
- Trong tháng 6, Apple giới thiệu các mô hình "Apple Intelligence" với khoảng 3 tỷ tham số. Vào cuối tháng 4, Microsoft ra mắt dòng SLM Phi-3, với các mô hình có từ 3.8 tỷ đến 14 tỷ tham số.
- Trong một loạt bài kiểm tra, mô hình nhỏ nhất của Microsoft, Phi-3-mini, sánh ngang với GPT-3.5 của OpenAI (175 tỷ tham số) và vượt trội hơn Gemma của Google (7 tỷ tham số). Phi-3-small của Microsoft, với 7 tỷ tham số, còn vượt xa GPT-3.5 trong nhiều bài kiểm tra.
- Việc mở rộng số lượng tham số không phải là cách duy nhất để cải thiện hiệu suất mô hình. Huấn luyện trên dữ liệu chất lượng cao hơn cũng mang lại kết quả tương tự. Các mô hình Phi của Microsoft được huấn luyện trên dữ liệu "chất lượng sách giáo khoa".
- SLM tiêu tốn ít năng lượng hơn nhiều so với LLM, có thể chạy cục bộ trên các thiết bị như điện thoại thông minh và laptop để bảo vệ quyền riêng tư dữ liệu và cá nhân hóa cho từng người dùng.
- SLM có thể dân chủ hóa việc tiếp cận với các mô hình ngôn ngữ, vốn tập trung vào tay một vài công ty lớn. SLM dễ dàng huấn luyện trên phần cứng giá rẻ hơn, phù hợp với các phòng thí nghiệm và tổ chức nhỏ hơn.
- SLM được tối ưu hóa cẩn thận giúp các nhà nghiên cứu tiến gần hơn đến việc xây dựng AI có trách nhiệm và có thể giải thích được.
- SLM cũng có thể cung cấp những hiểu biết mới về cách trẻ em học ngôn ngữ đầu tiên. Thử thách BabyLM tối ưu hóa việc huấn luyện mô hình ngôn ngữ trên dữ liệu nhỏ.
📌 Sự xuất hiện của các mô hình ngôn ngữ nhỏ (SLM) đánh dấu một bước ngoặt trong phát triển AI, khi các công ty công nghệ lớn như Apple và Microsoft tìm cách cải thiện hiệu suất mô hình thông qua việc sử dụng dữ liệu huấn luyện chất lượng cao hơn thay vì chỉ mở rộng quy mô. Với khả năng hoạt động trên các thiết bị cá nhân, SLM hứa hẹn sẽ dân chủ hóa việc tiếp cận AI, đồng thời mở ra cơ hội nghiên cứu mới về cách con người học ngôn ngữ.
https://spectrum.ieee.org/small-language-models-apple-microsoft
- Apple và Viện Công nghệ Liên bang Thụy Sĩ (EPFL) phát triển phương pháp dựa trên sơ đồ tiền huấn luyện che phương thức đa phương thức, mở rộng đáng kể khả năng bằng cách huấn luyện trên nhiều phương thức đa dạng.
- Phương pháp này kết hợp hơn 20 phương thức như phân đoạn SAM, tư thế 3D của con người, cạnh Canny, bảng màu và các siêu dữ liệu và embedding khác nhau.
- Bằng cách sử dụng các bộ mã hóa rời rạc đặc thù cho từng phương thức, phương pháp mã hóa các đầu vào đa dạng thành một định dạng thống nhất, cho phép huấn luyện một mô hình duy nhất trên nhiều phương thức mà không làm giảm hiệu suất.
- Mô hình 4M-21 thể hiện nhiều khả năng như tạo sinh đa phương thức có thể điều khiển, truy xuất đa phương thức và hiệu suất tốt ngay từ đầu trên nhiều tác vụ thị giác.
- Mô hình có thể dự đoán bất kỳ phương thức huấn luyện nào bằng cách giải mã các token lặp đi lặp lại, cho phép tạo sinh chi tiết và đa phương thức với khả năng hiểu văn bản được cải thiện.
- Trong các đánh giá ngay từ đầu, 4M-21 đạt hiệu suất cạnh tranh trong các tác vụ như ước tính pháp tuyến bề mặt, ước tính độ sâu, phân đoạn ngữ nghĩa, phân đoạn thực thể, ước tính tư thế 3D của con người và truy xuất ảnh.
- Nghiên cứu cho thấy huấn luyện trên một tập hợp rộng hơn các phương thức không ảnh hưởng đến hiệu suất trên các tác vụ quen thuộc và có thể nâng cao khả năng trên các tác vụ mới, đặc biệt khi kích thước mô hình tăng lên.
📌 Mô hình 4M-21 của Apple với 3 tỷ tham số, được huấn luyện trên 21 phương thức đa dạng, thể hiện khả năng tạo sinh, truy xuất và tương tác đa phương thức mạnh mẽ. Mô hình đạt hiệu suất cao trên nhiều tác vụ thị giác, thường sánh ngang hoặc vượt trội so với các mô hình chuyên biệt, mở ra tiềm năng ứng dụng đa dạng của AI đa phương thức trong tương lai.
https://www.marktechpost.com/2024/06/18/apple-releases-4m-21-a-very-effective-multimodal-ai-model-that-solves-tens-of-tasks-and-modalities/
- OpenVLA là một mô hình VLA nguồn mở 7B tham số, đặt ra tiêu chuẩn mới cho các chính sách thao tác robot, do các nhà nghiên cứu từ Stanford, UC Berkeley, Toyota Research Institute, Google Deepmind và MIT đề xuất.
- OpenVLA bao gồm một mô hình ngôn ngữ điều kiện trực quan được tiền huấn luyện, nắm bắt các chi tiết trực quan ở nhiều cấp độ khác nhau. Nó được tinh chỉnh trên tập dữ liệu lớn và đa dạng gồm 970k quỹ đạo thao tác robot từ tập dữ liệu Open-X Embodiment.
- OpenVLA vượt trội hơn mô hình hàng đầu trước đó, RT-2-X 55B tham số, với 16,5% tỷ lệ thành công tuyệt đối trên 29 tác vụ trên nền tảng WidowX và Google Robot.
- Các chính sách OpenVLA hoạt động tốt hơn các chính sách được tiền huấn luyện và tinh chỉnh như Octo. Để huấn luyện OpenVLA, khung VLM Prismatic-7B được tiền huấn luyện để dự đoán các hành động của robot.
- Cả hai phiên bản của Diffusion Policy đều tốt bằng hoặc vượt trội hơn các chính sách tổng quát Octo và OpenVLA cho các tác vụ đơn giản hơn chỉ cần một hướng dẫn. Tuy nhiên, đối với các tác vụ tinh chỉnh phức tạp hơn liên quan đến nhiều đối tượng và cần hướng dẫn ngôn ngữ, các chính sách tổng quát được tiền huấn luyện hoạt động tốt hơn.
- OpenVLA là cách tiếp cận duy nhất đạt tỷ lệ thành công ít nhất 50% trên tất cả các tác vụ được thử nghiệm, khiến nó trở thành một lựa chọn mặc định mạnh mẽ cho các tác vụ học bắt chước, đặc biệt là những tác vụ liên quan đến nhiều hướng dẫn ngôn ngữ khác nhau.
📌 OpenVLA, một mô hình nguồn mở tiên tiến với 7 tỷ tham số, thể hiện hiệu suất vượt trội trong việc điều khiển nhiều loại robot ngay từ đầu. Phương pháp này có thể dễ dàng thích ứng với các thiết lập robot mới thông qua các kỹ thuật tinh chỉnh tham số hiệu quả, đạt tỷ lệ thành công ít nhất 50% trên tất cả các tác vụ được thử nghiệm. Tuy nhiên, OpenVLA hiện chỉ hỗ trợ quan sát hình ảnh đơn lẻ, và cần được mở rộng để hỗ trợ nhiều đầu vào hình ảnh, cảm nhận vị trí và lịch sử quan sát.
https://www.marktechpost.com/2024/06/16/openvla-a-7b-parameter-open-source-vla-setting-new-state-of-the-art-for-robot-manipulation-policies/
- SEA-LION là mô hình ngôn ngữ lớn (LLM) mã nguồn mở do AI Singapore (AISG) phát triển, tập trung vào ngôn ngữ và văn hóa Đông Nam Á.
- Mô hình hiện chạy trên 2 phiên bản: 3 tỷ tham số và 7 tỷ tham số, được huấn luyện trên 981 tỷ token ngôn ngữ, bao gồm 623 tỷ token tiếng Anh, 128 tỷ token Đông Nam Á và 91 tỷ token tiếng Trung.
- 13% dữ liệu đằng sau SEA-LION tập trung vào Đông Nam Á, trong khi Llama 2 của Meta chỉ chứa 0.5%.
- AISG dự kiến phát hành mô hình 7 tỷ tham số mới vào giữa năm 2024 và các mô hình 13 tỷ và 30 tỷ tham số sau đó trong năm nay.
- Mục tiêu là cải thiện hiệu suất của LLM với các mô hình lớn hơn, có khả năng tạo ra các kết nối tốt hơn, có khả năng nhắc nhở zero-shot và hiểu ngữ cảnh mạnh mẽ hơn về các nét đặc trưng của khu vực.
- Singapore cũng đang tìm cách giải quyết sự thiếu hụt các tiêu chuẩn mạnh mẽ để đánh giá hiệu quả của mô hình AI và phát triển các chỉ số để xác định sự thiên vị trong các LLM tập trung vào châu Á.
- Trung Quốc hiện dẫn đầu với hơn 200 mô hình nền tảng. Các mô hình khác cũng đang nhanh chóng xuất hiện trên khắp khu vực.
- Đối với hầu hết các doanh nghiệp, việc mua các mô hình nền tảng từ các nhà cung cấp bên ngoài sẽ là chuẩn mực. Khả năng thích ứng của mô hình đối với nhu cầu kinh doanh cụ thể và tính khả dụng tại địa phương trong khu vực đặc biệt quan trọng.
- Các tổ chức nên có cái nhìn toàn diện khi đánh giá các mô hình nền tảng và duy trì cách tiếp cận tiệm tiến trong việc áp dụng AI tạo sinh.
- Ấn Độ cũng đang tìm cách xây dựng mô hình nền tảng của riêng mình để hỗ trợ tốt hơn các yêu cầu độc đáo của mình.
- Hầu hết các tổ chức ở khu vực sẽ áp dụng cách tiếp cận lai, tận dụng cả mô hình nền tảng châu Á - Thái Bình Dương và Hoa Kỳ để cung cấp năng lượng cho nền tảng AI của họ.
📌 SEA-LION là mô hình ngôn ngữ lớn mã nguồn mở đầu tiên tập trung vào Đông Nam Á với 981 tỷ token ngôn ngữ, trong đó 13% dữ liệu tập trung vào khu vực. AISG đang phát triển các mô hình lớn hơn lên đến 30 tỷ tham số và các tiêu chuẩn mới để đánh giá hiệu quả, giải quyết sự thiếu hụt và thiên vị trong các LLM hiện tại.
https://www.zdnet.com/article/singapore-is-among-asian-nations-championing-need-for-more-inclusive-ai-models/
- Apple giới thiệu Apple Intelligence, cách tiếp cận riêng với trí tuệ nhân tạo tạo sinh tại WWDC 2024, tập trung vào trải nghiệm người dùng.
- Các mô hình của Apple được huấn luyện chuyên biệt cho hệ điều hành macOS/iOS, với quy mô nhỏ gọn, tốc độ nhanh và tối ưu năng lượng tính toán.
- Apple cung cấp công cụ tạo hình ảnh Image Playground với 3 phong cách: hoạt hình, minh họa và phác thảo. Tạo văn bản cũng có 3 phong cách: thân thiện, chuyên nghiệp và súc tích.
- Mô hình của Apple được huấn luyện trên tập dữ liệu được cấp phép và thu thập công khai qua trình thu thập thông tin AppleBot. Các nhà xuất bản web có thể chọn không tham gia huấn luyện mô hình AI tạo sinh của Apple.
- Apple đưa ra các nguyên tắc về trí tuệ nhân tạo có trách nhiệm: trao quyền cho người dùng, đại diện đa dạng, thiết kế cẩn trọng và bảo vệ quyền riêng tư.
- Cách tiếp cận mô hình chuyên biệt cho phép Apple điều chỉnh hệ thống phù hợp với trải nghiệm người dùng. Tuy nhiên, đây sẽ là thách thức cân bằng giữa trải nghiệm liền mạch và minh bạch thông tin.
- Người dùng có thể chọn không sử dụng các nền tảng bên thứ ba, nhưng không thể tắt hoàn toàn Apple Intelligence. Việc xử lý yêu cầu trên thiết bị hay điện toán đám mây riêng tư (Private Cloud Compute) sẽ không được tiết lộ rõ ràng.
- Việc mở ra tích hợp với các mô hình bên thứ ba như ChatGPT là hợp lý do phạm vi hạn chế của mô hình Apple. Khi hệ thống cho rằng ứng dụng bên thứ ba phù hợp hơn, nó sẽ hỏi người dùng có muốn chia sẻ thông tin ra bên ngoài hay không.
📌 Apple giới thiệu cách tiếp cận mô hình AI tạo sinh nhỏ gọn, chuyên biệt tại WWDC 2024, tập trung vào trải nghiệm người dùng liền mạch trên hệ điều hành của họ. Tuy nhiên, việc cân bằng giữa sự thuận tiện và tính minh bạch, bảo mật sẽ là thách thức. Apple cũng mở ra khả năng tích hợp với các mô hình bên thứ ba như ChatGPT để mở rộng phạm vi.
https://techcrunch.com/2024/06/11/why-apple-is-taking-a-small-model-approach-to-generative-ai/
- MAP-Neo là mô hình ngôn ngữ song ngữ lớn với 7 tỷ tham số, được huấn luyện trên 4.5 nghìn tỷ token chất lượng cao, do các nhà nghiên cứu từ M-A-P, Đại học Waterloo, Viện nghiên cứu AI Vũ Hán và 01.AI phát triển. Đây là mô hình LLM song ngữ đầu tiên được công bố hoàn toàn mã nguồn mở và minh bạch.
- MAP-Neo đạt hiệu suất tương đương hoặc vượt trội so với các mô hình LLM thương mại hàng đầu hiện nay như GPT, Gemini, Claude trong nhiều tác vụ như hiểu ngôn ngữ, lập luận, tri thức và lập trình.
- Tất cả các chi tiết cần thiết để tái tạo lại MAP-Neo đều được công bố đầy đủ, bao gồm: tập dữ liệu tiền huấn luyện đã qua làm sạch với 4.5 nghìn tỷ token, pipeline làm sạch dữ liệu, các checkpoint mô hình trung gian và cuối cùng, cùng với framework huấn luyện/đánh giá đã được tối ưu hóa.
- So với các mô hình mã nguồn mở khác như Mistral, LLaMA3, Pythia, Amber và OLMo, MAP-Neo tích hợp nhiều cải tiến vượt trội như các checkpoint trung gian, quy trình làm sạch dữ liệu toàn diện, tập dữ liệu tiền huấn luyện có thể truy cập dễ dàng và mã tái tạo đầy đủ.
- Trong các bài kiểm tra chuẩn về hiểu ngôn ngữ tiếng Trung và tiếng Anh (C-EVAL, MMLU), khả năng toán học (GSM8K) và lập trình (HumanEval), MAP-Neo đạt điểm số rất cao, vượt qua nhiều mô hình khác. Điều này cho thấy MAP-Neo thiết lập một tiêu chuẩn mới về tính minh bạch và hiệu suất cho các mô hình ngôn ngữ lớn.
- Bộ mã hóa (tokenizer) của MAP-Neo được huấn luyện bằng phương pháp mã hóa cặp byte (BPE) thông qua công cụ SentencePiece trên 50 tỷ mẫu văn bản, với độ dài tối đa 64,000 token. Kích thước từ vựng là 64,000 từ với độ dài tối đa của mỗi đoạn văn bản là 16 token. Các con số được mã hóa thành từng chữ số riêng lẻ.
- Việc ưu tiên dữ liệu mã nguồn, toán học và học thuật trong quá trình tiền huấn luyện giúp MAP-Neo đạt hiệu suất cao trong các tác vụ liên quan. Hiệu suất của bộ mã hóa có sự khác biệt tùy thuộc vào ngôn ngữ và nguồn dữ liệu.
- Việc công bố đầy đủ mô hình MAP-Neo mang lại nhiều lợi ích như giảm chi phí triển khai, đặc biệt cho các LLM tiếng Trung. Điều này thúc đẩy sự bao quát trong đổi mới AI, giảm sự thống trị của các LLM tiếng Anh và giải quyết vấn đề "chủ nghĩa thực dân dữ liệu" do các công ty lớn chi phối.
📌 MAP-Neo đánh dấu một cột mốc quan trọng với tư cách là mô hình ngôn ngữ lớn song ngữ đầu tiên được công bố hoàn toàn mã nguồn mở và minh bạch. Với 7 tỷ tham số, MAP-Neo được huấn luyện trên 4.5 nghìn tỷ token dữ liệu chất lượng cao, đạt hiệu suất vượt trội ngang ngửa với các mô hình thương mại hàng đầu trong nhiều tác vụ quan trọng. Tính minh bạch và khả năng tái tạo đầy đủ của MAP-Neo mở ra tiềm năng to lớn cho cộng đồng nghiên cứu AI toàn cầu, thúc đẩy sự bao quát và giảm sự phụ thuộc vào các mô hình đóng, đặc biệt có ý nghĩa với các quốc gia và khu vực không sử dụng tiếng Anh.
https://www.marktechpost.com/2024/05/31/map-neo-a-fully-open-source-and-transparent-bilingual-llm-suite-that-achieves-superior-performance-to-close-the-gap-with-closed-source-models/
- Falcon 2 11B là mô hình đầu tiên trong dòng Falcon 2 thế hệ tiếp theo của TII, được huấn luyện trên bộ dữ liệu 5.5 nghìn tỷ token và hỗ trợ đa ngôn ngữ.
- Falcon 2 11B có sẵn trên SageMaker JumpStart, trung tâm học máy cung cấp quyền truy cập vào các thuật toán, mô hình nền tảng và giải pháp học máy được xây dựng sẵn.
- Bài viết hướng dẫn cách khám phá, triển khai và chạy suy luận trên mô hình Falcon 2 11B bằng SageMaker JumpStart.
- Falcon 2 11B là mô hình thô, được tiền huấn luyện, có thể là nền tảng cho các tác vụ chuyên biệt hơn và cho phép tinh chỉnh mô hình cho các trường hợp sử dụng cụ thể.
- Falcon 2 11B được hỗ trợ bởi SageMaker TGI Deep Learning Container (DLC) được cung cấp bởi Text Generation Inference (TGI), một giải pháp nguồn mở được xây dựng riêng cho việc triển khai và phục vụ các mô hình ngôn ngữ lớn.
- Mô hình có sẵn theo Giấy phép TII Falcon 2.0, giấy phép phần mềm dựa trên Apache 2.0, bao gồm chính sách sử dụng chấp nhận được nhằm thúc đẩy việc sử dụng AI có trách nhiệm.
- Bài viết cung cấp các ví dụ về lời nhắc và đầu ra mẫu khi tương tác với mô hình Falcon 2 11B như tạo văn bản, tạo mã, phân tích cảm xúc, trả lời câu hỏi, khả năng đa ngôn ngữ, toán học và lập luận.
📌 Falcon 2 11B, mô hình ngôn ngữ lớn thế hệ tiếp theo với 11 tỷ tham số, đã có mặt trên Amazon SageMaker JumpStart để triển khai và suy luận. Mô hình hỗ trợ đa ngôn ngữ, có thể xử lý các tác vụ tạo văn bản, tạo mã, phân tích cảm xúc, trả lời câu hỏi. Falcon 2 11B có sẵn theo giấy phép nguồn mở TII Falcon 2.0, thúc đẩy sử dụng AI có trách nhiệm.
Citations:
[1] https://aws.amazon.com/blogs/machine-learning/falcon-2-11b-is-now-available-on-amazon-sagemaker-jumpstart/
- Tại Build 2024, Microsoft đã ra mắt Phi-3-vision, phiên bản tiên tiến của mô hình ngôn ngữ AI nhỏ Phi-3. Mô hình đa phương thức mới này có khả năng xử lý và giải thích hình ảnh, nhận diện nội dung cho người dùng.
- Phi-3-vision với 4,2 tỷ tham số, được thiết kế cho thiết bị di động. Độ phức tạp của mô hình AI được thể hiện qua số lượng tham số, cho thấy mức độ huấn luyện và khả năng hiểu biết.
- Microsoft đang tinh chỉnh mô hình Phi, với Phi-3 là bản nâng cấp của Phi-2, được huấn luyện trên Phi-1 và có thêm khả năng mới.
- Khác với các mô hình nổi tiếng hơn như DALL-E của OpenAI, Phi-3-vision chỉ có thể phân tích hình ảnh chứ không thể tạo ra hình ảnh mới.
- Microsoft đã giới thiệu một số mô hình AI nhỏ, được thiết kế để sử dụng cục bộ và tương thích với nhiều thiết bị hơn so với các mô hình lớn như Gemini của Google hay ChatGPT.
- Các mô hình này hoạt động ngoại tuyến, không cần kết nối internet và giảm sức mạnh tính toán cần thiết cho các tác vụ cụ thể, như giải quyết vấn đề toán học được thể hiện qua mô hình Orca-Math của Microsoft.
- Phiên bản đầu tiên của Phi-3 được giới thiệu vào tháng 4, khi Microsoft ra mắt Phi-3-mini nhỏ gọn. Trong các bài kiểm tra chuẩn, nó vượt trội hơn các mô hình lớn hơn như Llama 2 của Meta với 3,8 tỷ tham số.
- Microsoft cũng cung cấp hai mô hình Phi-3 khác là Phi-3-small và Phi-3-medium, với lần lượt 7 tỷ và 14 tỷ tham số.
- Phi-3-vision hiện đang có sẵn trong bản xem trước. Các mô hình Phi-3 khác như Phi-3-mini, Phi-3-small và Phi-3-medium có thể truy cập thông qua danh mục mô hình Azure Machine Learning và các bộ sưu tập.
- Để sử dụng chúng, bạn sẽ cần một tài khoản Azure trả phí và trung tâm Azure AI Studio.
📌 Microsoft đã ra mắt Phi-3-vision, một mô hình ngôn ngữ AI nhỏ gọn mới với 4,2 tỷ tham số, có khả năng xử lý và giải thích hình ảnh. Đây là bản nâng cấp của Phi-3, vượt trội hơn các mô hình lớn như Llama 2 của Meta. Phi-3-vision hiện đang có sẵn trong bản xem trước cùng với các mô hình Phi-3 khác trên nền tảng Azure của Microsoft.
Citations:
[1] https://www.tomsguide.com/ai/microsofts-new-tiny-language-model-can-read-images-heres-what-you-can-use-it-for
- Microsoft, Meta và Google gần đây đã phát hành các mô hình AI mới với ít "tham số" hơn, nhưng vẫn có khả năng mạnh mẽ. Số lượng tham số càng cao, hiệu suất của phần mềm AI càng tốt và các tác vụ của nó có thể phức tạp, tinh tế hơn.
- Các tập đoàn công nghệ đang gặp khó khăn trong việc thuyết phục khách hàng doanh nghiệp trả các khoản tiền lớn cần thiết để chạy các sản phẩm AI tạo sinh. Ngoài ra, còn có những lo ngại về trách nhiệm dữ liệu và bản quyền cản trở việc áp dụng.
- Meta và Google đang quảng bá các mô hình ngôn ngữ nhỏ chỉ với một vài tỷ tham số như là các giải pháp thay thế rẻ hơn, tiết kiệm năng lượng, có thể tùy chỉnh, đòi hỏi ít năng lượng hơn để huấn luyện và chạy, đồng thời có thể bảo vệ dữ liệu nhạy cảm.
- Các mô hình nhỏ hơn cho phép các tính năng AI chạy cục bộ trên thiết bị, thay vì gửi thông tin lên đám mây, điều này có thể thu hút các khách hàng quan tâm đến quyền riêng tư muốn đảm bảo thông tin được giữ trong mạng nội bộ.
- Mô hình nhỏ hơn cũng cho phép các tính năng AI chạy trên các thiết bị như điện thoại di động. Mô hình "Gemini Nano" của Google được nhúng bên trong điện thoại Pixel mới nhất và điện thoại Samsung S24 mới nhất.
📌 Các công ty công nghệ lớn đang đẩy mạnh phát triển các mô hình ngôn ngữ AI nhỏ hơn, với chi phí thấp hơn và khả năng tùy biến cao hơn, nhằm thúc đẩy việc áp dụng AI trong doanh nghiệp. Tuy nhiên, OpenAI cho biết họ sẽ tiếp tục tập trung xây dựng các mô hình AI lớn hơn với khả năng mở rộng, bao gồm khả năng lập luận, lập kế hoạch và thực hiện các nhiệm vụ.
https://www.ft.com/content/359a5a31-1ab9-41ea-83aa-5b27d9b24ef9
#FT
- Tiny AI là các mô hình AI nhỏ gọn, chuyên biệt có thể chạy trực tiếp trên máy tính xách tay hoặc điện thoại thông minh, thay vì phụ thuộc vào đám mây như ChatGPT.
- Các mô hình này tuy không có khả năng rộng như ChatGPT nhưng bù lại chúng dễ tiếp cận và tùy chỉnh hơn, phù hợp với ngôn ngữ và kiến thức duy nhất của từng ngành.
- Tiny AI đảm bảo tính riêng tư và bảo mật dữ liệu nhạy cảm của khách hàng, mở ra nhiều khả năng tích hợp AI vào quy trình làm việc.
- Một số mô hình Tiny AI phổ biến bao gồm H2O-Danube2-1.8B (1.8 tỷ tham số), Microsoft Phi 1.5 và Google Gemma 2B.
- Tiny AI cho phép chạy nhanh các thử nghiệm trong kinh doanh mà trước đây không thể thực hiện được, tương tự như cách phần mềm đã thúc đẩy sự phát triển kinh doanh trong thập kỷ qua.
- Việc phát triển và triển khai các mô hình AI tùy chỉnh này đòi hỏi một số kiến thức và nguồn lực kỹ thuật, nhưng rào cản gia nhập đang ngày càng thấp nhờ hệ sinh thái các công cụ và nền tảng dân chủ hóa AI đang phát triển.
- Khi các công cụ này trưởng thành và ngày càng nhiều doanh nghiệp nhận ra tiềm năng của Tiny AI, chúng ta có thể kỳ vọng một sự bùng nổ đổi mới tại nơi làm việc, tương tự như cách máy tính cá nhân đã cách mạng hóa năng suất văn phòng trong những năm 1980 và 1990.
📌 Tiny AI hứa hẹn sẽ trở thành vũ khí bí mật của các doanh nghiệp, mở ra cánh cửa năng suất, sáng tạo và đổi mới ở cấp độ mới. Với khả năng tùy chỉnh và truy cập dễ dàng, Tiny AI đang âm thầm thay đổi tương lai của công việc, một mô hình nhỏ gọn nhưng đầy sức mạnh trong mỗi lần.
https://www.forbes.com/sites/forbesagencycouncil/2024/05/17/how-to-use-ai-at-work-beyond-chatgpt/
- Dự án Taide của Đài Loan được công bố vào tháng 2 năm 2023, nhằm phát triển một mô hình ngôn ngữ lớn (LLM) trong nước để tận dụng lợi ích kinh tế và bảo vệ dân số khỏi ảnh hưởng ngoại lai.
- Taide được thiết kế để phục vụ chủ yếu cho thị trường nội địa Đài Loan, sử dụng dữ liệu trong nước bao gồm các báo cáo chính phủ và tin tức, được viết bằng chữ Trung Quốc truyền thống và phản ánh ngữ pháp và cách nói địa phương.
- Mô hình này được ra mắt vào ngày 29 tháng 4 năm 2024, với kinh phí phát triển là 7,4 triệu USD, nhằm cải thiện hiệu quả trong các doanh nghiệp và tổ chức bằng cách tích hợp vào hoạt động kỹ thuật số của họ.
- Một chuyên gia AI kỳ cựu lập luận rằng Taide sẽ cần gần 3 tỷ Đài tệ (100 triệu USD) để tạo ra một mô hình toàn diện hơn sẽ được sử dụng rộng rãi.
- Các chuyên gia công nghệ Đài Loan lạc quan về khả năng của Taide trong việc thúc đẩy GDP quốc gia thông qua việc giữ gìn giá trị kinh tế từ sản xuất và tiêu dùng LLM trong nước.
- Taide cũng được kỳ vọng mang lại nhiều lợi ích liên quan đến an ninh, đặc biệt là trong việc ngăn chặn rủi ro thu thập dữ liệu người dùng Đài Loan bởi các công ty nước ngoài có liên kết với các thế lực độc hại.
- Mặc dù Taide chỉ sử dụng một phần nhỏ số liệu so với ChatGPT (7 tỷ so với 175 tỷ tham số dữ liệu), và hiện tại dự án này đang đối mặt với hạn chế về năng lực tính toán, các nhà phát triển tại Đài Loan vẫn tin tưởng vào giá trị của nó mà không nhất thiết phải sánh ngang với các mô hình quốc tế.
- Taide không chỉ là một bước tiến trong công nghệ mà còn là minh chứng cho cam kết của Đài Loan trong việc củng cố dân chủ số và tăng cường vị thế địa chính trị của mình thông qua sự đổi mới và giá trị dân chủ.
📌 Dự án Taide của Đài Loan, với kinh phí 7,4 triệu USD chỉ sử dụng một phần nhỏ số liệu so với ChatGPT (7 tỷ so với 175 tỷ tham số dữ liệu) và được phát triển dựa trên dữ liệu địa phương, không chỉ nhằm cải thiện hiệu quả kinh doanh mà còn tăng cường an ninh quốc gia. Taide vẫn được kỳ vọng sẽ đóng góp vào sự phát triển kinh tế và địa chính trị của Đài Loan trong dài hạn. Một chuyên gia AI kỳ cựu lập luận rằng Taide sẽ cần gần 3 tỷ Đài tệ (100 triệu USD) để tạo ra một mô hình toàn diện hơn sẽ được sử dụng rộng rãi.
Citations:
[1] https://ketagalanmedia.com/2024/05/06/taide-taiwans-own-ai-project-highlights-geopolitical-implications/
- Soket AI Labs giới thiệu Pragna-1B, mô hình đa ngữ mã nguồn mở đầu tiên của Ấn Độ, hỗ trợ tiếng Hindi, Gujarati, Bangla và tiếng Anh.
- Pragna-1B là bước tiến quan trọng hướng tới công nghệ AI hòa nhập, vượt qua rào cản ngôn ngữ và tăng cường tương tác người dùng trên các bối cảnh ngôn ngữ đa dạng.
- Mô hình sử dụng kiến trúc Transformer Decoder với 1,25 tỷ tham số và độ dài ngữ cảnh 2048 token.
- Quá trình huấn luyện Pragna-1B tập trung vào tiếng Hindi, Bangla và Gujarati, xử lý khoảng 150 tỷ token.
- Mô hình được thiết kế để triển khai hiệu quả trên thiết bị, mang lại hiệu suất tốt nhất cho các ngôn ngữ bản địa trong kích thước nhỏ gọn.
- Mặc dù có số lượng tham số khiêm tốn, hiệu suất của Pragna-1B tương đương với các mô hình 7 tỷ tham số lớn hơn.
- Pragna-1B được huấn luyện kỹ lưỡng trên các bộ dữ liệu được biên soạn riêng cho bối cảnh Ấn Độ, đảm bảo đầu ra chính xác và phù hợp về mặt văn hóa.
- Mô hình sử dụng bộ mã hóa Byte-Pair (BPE) tokenizer, được huấn luyện đặc biệt để xử lý các ngôn ngữ Ấn Độ, đạt kích thước từ vựng 69.632.
- Soket AI Labs tạo ra "Bhasha", một loạt bộ dữ liệu chất lượng cao được thiết kế riêng để huấn luyện các mô hình ngôn ngữ Ấn Độ.
- Bhasha-wiki bao gồm 44,1 triệu bài viết được dịch từ Wikipedia tiếng Anh sang 6 ngôn ngữ Ấn Độ.
- Bhasha-wiki-indic là tập con tinh chỉnh của Bhasha-wiki, tập trung vào nội dung liên quan đến Ấn Độ.
- Bhasha-SFT tạo điều kiện phát triển ngôn ngữ.
📌 Pragna-1B của Soket AI Labs là mô hình ngôn ngữ đa ngữ mã nguồn mở đầu tiên của Ấn Độ, hỗ trợ tiếng Hindi, Gujarati, Bangla và Anh với 1,25 tỷ tham số. Mô hình mang lại hiệu suất tốt nhất cho các ngôn ngữ bản địa, được huấn luyện trên bộ dữ liệu Bhasha 44,1 triệu bài viết, đánh dấu bước tiến quan trọng hướng tới AI hòa nhập.
Citations:
[1] https://analyticsindiamag.com/soket-ai-labs-unveils-pragna-1b-multilingual-indic-language-model/
- Gyan AI đã ra mắt Paramanu-Ganita, một mô hình ngôn ngữ toán học với 208 triệu tham số, nhỏ hơn 35 lần so với các mô hình lớn hơn.
- Mặc dù quy mô khiêm tốn, Paramanu-Ganita vượt trội hơn đáng kể so với các mô hình tổng quát như LLama, Falcon và mô hình chuyên biệt như Minerva trong bài kiểm tra chuẩn GSM8k.
- Thành công của mô hình cho thấy hiệu quả của việc phát triển các mô hình chuyên biệt từ đầu thay vì điều chỉnh các mô hình ngôn ngữ tổng quát cho các lĩnh vực cụ thể.
- Nhóm nghiên cứu bao gồm Mitodru Niyogi (CEO của Gyan AI) và Arnab Bhattacharya (Giáo sư Khoa học Máy tính và Kỹ thuật tại IIT Kanpur, Ấn Độ, cố vấn AI tại Gyan AI).
- Mô hình được huấn luyện trên một kho ngữ liệu toán học độc đáo, chất lượng cao bao gồm sách giáo khoa, ghi chú bài giảng và tài liệu từ web.
- Quá trình huấn luyện chỉ mất 146 giờ trên A100.
- Thành công của Paramanu-Ganita có thể quy cho chế độ huấn luyện và sự chuyên môn hóa trong toán học.
- Mô hình sử dụng bộ giải mã Auto-Regressive (AR) xử lý thông tin tuần tự, giúp giải quyết hiệu quả các bài toán phức tạp thông qua lập luận logic.
- Hiệu suất của mô hình được đánh giá kỹ lưỡng bằng các chỉ số perplexity và các bài kiểm tra chuẩn.
- Paramanu-Ganita mang lại giải pháp đáng tin cậy, hiệu quả và ít tốn tài nguyên hơn cho các ngành và lĩnh vực phụ thuộc nhiều vào tính toán và mô hình hóa toán học.
📌 Gyan AI đã giới thiệu Paramanu-Ganita, một mô hình ngôn ngữ toán học 208 triệu tham số, vượt trội hơn đáng kể so với LLama, Falcon và Minerva trong bài kiểm tra GSM8k. Mô hình được huấn luyện trên kho ngữ liệu toán học chất lượng cao trong 146 giờ trên chip A100, thể hiện hiệu quả của việc phát triển mô hình chuyên biệt thay vì điều chỉnh từ mô hình tổng quát.
Citations:
[1] https://analyticsindiamag.com/gyan-ai-unveils-smaller-scale-maths-llm-paramanu-ganita-outperforming-llama-falcon/
Dưới đây là tóm tắt nội dung từ URL mà bạn cung cấp:
Meta description: Microsoft vừa ra mắt Phi-3 Mini, một mô hình AI cực nhỏ gọn với chỉ 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa ChatGPT, có thể chạy trên điện thoại hoặc laptop mà không cần kết nối đám mây.
Meta keywords: Microsoft Phi-3 Mini, mô hình AI nhỏ gọn, 3,8 tỷ tham số, hiệu suất như ChatGPT, chạy cục bộ trên thiết bị
SEO title: Microsoft Phi-3 Mini: AI siêu nhỏ gọn đạt hiệu suất như ChatGPT
Tóm tắt chi tiết:
- Microsoft vừa giới thiệu Phi-3 Mini, một mô hình AI cực kỳ nhỏ gọn với chỉ 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa các mô hình ngôn ngữ lớn nhất hiện nay.
- Phi-3 Mini là mô hình đầu tiên trong 3 mô hình AI nhỏ gọn mà Microsoft đang phát triển, tiếp theo sẽ là Phi-3 Small (7 tỷ tham số) và Phi-3 Medium (14 tỷ tham số).
- Mặc dù chỉ có 3,8 tỷ tham số, Phi-3 Mini có thể tạo ra kết quả gần tương đương với mô hình GPT-3.5 175 tỷ tham số đang chạy ChatGPT miễn phí và mô hình Mixtral 8x7B của công ty AI Pháp Mistral.
- Phi-3 Mini đủ nhỏ gọn để chạy cục bộ trên thiết bị mà không cần kết nối đám mây. Nó có thể xử lý tối đa 4.000 token ngữ cảnh cùng lúc, với phiên bản đặc biệt 128k token cũng có sẵn.
- Các nhà nghiên cứu của Microsoft đã đạt được kết quả ấn tượng này bằng cách tập trung mô hình 3,8 tỷ tham số tương đối nhỏ vào một tập dữ liệu được biên soạn cực kỳ kỹ lưỡng gồm nội dung web chất lượng cao và tài liệu tổng hợp được phát triển từ các mô hình Phi trước đó.
📌 Microsoft đã tạo ra một bước đột phá với Phi-3 Mini, một mô hình AI siêu nhỏ gọn 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa các mô hình khổng lồ như GPT-3.5 175 tỷ tham số. Phi-3 Mini có thể chạy cục bộ trên điện thoại hoặc laptop mà không cần kết nối đám mây nhờ việc tập trung vào một tập dữ liệu chất lượng cao được biên soạn kỹ lưỡng.
Citations:
[1] https://www.techspot.com/news/102766-microsoft-phi-3-mini-boasts-chatgpt-level-performance.html
- Apple giới thiệu OpenELM (Open-source Efficient Language Models) gồm 8 mô hình ngôn ngữ lớn (LLMs) hoạt động trực tiếp trên thiết bị thay vì dựa vào máy chủ đám mây.
- Các mô hình OpenELM đã có trên nền tảng chia sẻ mã nguồn AI Hugging Face Hub.
- Theo white paper, Apple sử dụng 2 loại mô hình OpenELM: 4 mô hình pre-trained bằng thư viện CoreNet và 4 mô hình instruction-tuned.
- Apple áp dụng chiến lược layer-wise scaling để tăng cường độ chính xác và hiệu quả.
- Ngoài mô hình cuối cùng, Apple còn cung cấp mã nguồn, log huấn luyện và nhiều phiên bản khác nhau.
- Các nhà nghiên cứu kỳ vọng cách tiếp cận này sẽ thúc đẩy tiến bộ và mang lại "kết quả đáng tin cậy hơn" trong lĩnh vực AI ngôn ngữ tự nhiên.
- OpenELM phá vỡ thông lệ trước đây khi chỉ chia sẻ trọng số mô hình và mã suy luận, huấn luyện trên bộ dữ liệu độc quyền. Giờ đây, Apple chia sẻ toàn bộ framework để huấn luyện và đánh giá mô hình trên bộ dữ liệu công khai.
- Apple phát hành OpenELM nhằm "làm giàu và trao quyền cho cộng đồng nghiên cứu mở" với các mô hình ngôn ngữ tiên tiến. Nhà nghiên cứu có thể khám phá rủi ro, dữ liệu và độ chệch. Nhà phát triển và công ty có thể tùy chỉnh mô hình theo nhu cầu.
- Việc Apple chia sẻ thông tin mở đã trở thành công cụ quan trọng để thu hút các kỹ sư, nhà khoa học và chuyên gia hàng đầu, tạo cơ hội cho các nghiên cứu trước đây không thể thực hiện dưới chính sách bảo mật của Apple.
📌 Apple đã giới thiệu OpenELM với 8 mô hình ngôn ngữ lớn mã nguồn mở chạy trực tiếp trên thiết bị. Việc chia sẻ toàn bộ framework huấn luyện trên dữ liệu công khai đánh dấu bước đột phá so với trước đây, hứa hẹn thúc đẩy nghiên cứu AI và thu hút nhân tài về Apple.
Citations:
[1] https://www.macrumors.com/2024/04/24/apple-ai-open-source-models/
- Microsoft vừa ra mắt phiên bản tiếp theo của mô hình AI nhẹ Phi-3 Mini, mô hình đầu tiên trong số 3 mô hình nhỏ mà công ty dự định phát hành.
- Phi-3 Mini có 3.8 tỷ tham số và được huấn luyện trên tập dữ liệu nhỏ hơn so với các mô hình lớn.
- Phi-3 có hiệu suất tốt hơn phiên bản trước và có thể đưa ra phản hồi gần như tương đương với mô hình lớn hơn gấp 10 lần.
- Eric Boyd, phó chủ tịch của Microsoft Azure AI Platform, cho biết Phi-3 Mini có khả năng tương đương với các mô hình ngôn ngữ lớn như GPT-3.5.
- Các mô hình AI nhỏ có ưu điểm là đòi hỏi ít tài nguyên tính toán hơn, dễ triển khai và tùy chỉnh hơn.
- Microsoft đã xây dựng một đội ngũ tập trung vào phát triển các mô hình AI nhẹ hơn.
- Các đối thủ cạnh tranh của Microsoft cũng có các mô hình AI nhỏ riêng của họ.
- Các nhà phát triển đã huấn luyện Phi-3 với một "chương trình giảng dạy" lấy cảm hứng từ cách trẻ em học từ sách thiếu nhi.
- Phi-3 kế thừa và phát triển từ những gì các phiên bản trước đã học, với khả năng lập trình và lập luận tốt hơn.
- Mặc dù Phi-3 có một số kiến thức chung, nhưng nó không thể vượt qua GPT-4 hoặc các mô hình ngôn ngữ lớn khác về độ rộng kiến thức.
- Các công ty thường thấy rằng các mô hình nhỏ hơn như Phi-3 hoạt động tốt hơn cho các ứng dụng tùy chỉnh của họ.
📌 Phi-3 Mini của Microsoft, với 3,8 tỷ tham số, mang lại hiệu suất ấn tượng tương đương các mô hình lớn hơn gấp 10 lần. Mô hình này kế thừa khả năng từ các phiên bản trước, được huấn luyện theo phương pháp độc đáo lấy cảm hứng từ sách thiếu nhi. Mặc dù không thể vượt qua các mô hình ngôn ngữ lớn về độ rộng kiến thức, Phi-3 Mini vẫn là lựa chọn tối ưu cho các ứng dụng tùy chỉnh của doanh nghiệp.
Citations:
[1] https://www.theverge.com/2024/4/23/24137534/microsoft-phi-3-launch-small-ai-language-model
- Snowflake giới thiệu và mở mã nguồn arctic-embed, một dòng gồm 5 mô hình nhúng văn bản với giấy phép Apache 2.0.
- Kích thước mô hình dao động từ 23 đến 334 triệu tham số, một mô hình có cửa sổ ngữ cảnh mở rộng, mang lại nhiều lựa chọn tối ưu về độ trễ, chi phí và hiệu suất truy xuất.
- Dựa trên bảng xếp hạng Massive Text Embedding Benchmark (MTEB) Retrieval, mô hình Arctic embed lớn nhất với 334 triệu tham số là mô hình duy nhất vượt qua hiệu suất truy xuất trung bình 55,9.
- Các mô hình có sẵn trên Hugging Face để sử dụng ngay và sẽ sớm có trong hàm Snowflake Cortex embed (đang trong giai đoạn xem trước riêng tư).
- Khi kết hợp với bộ dữ liệu độc quyền và LLM, các mô hình mang lại lợi thế mới cho các tổ chức trong việc tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) hoặc dịch vụ tìm kiếm ngữ nghĩa.
- Tính đến ngày 16/04/2024, snowflake-arctic-embed-l là mô hình nguồn mở mạnh mẽ nhất có thể sử dụng trong sản xuất dựa trên tỷ lệ hiệu suất trên kích thước.
📌 Snowflake ra mắt arctic-embed, bộ 5 mô hình nhúng văn bản tiên tiến với kích thước từ 23-334 triệu tham số và cửa sổ ngữ cảnh mở rộng. Mô hình lớn nhất đạt hiệu suất truy xuất vượt trội so với các đối thủ. Chúng được mở mã nguồn trên Hugging Face, tích hợp vào Snowflake Cortex, mang lại lợi thế khi kết hợp với dữ liệu độc quyền và LLM cho các ứng dụng RAG và tìm kiếm ngữ nghĩa.
Citations:
[1] Snowflake Launches Practical Text-Embedding Model for Retrieval use Cases https://www.snowflake.com/blog/introducing-snowflake-arctic-embed-snowflakes-state-of-the-art-text-embedding-family-of-models/
- aiXcoder 7B là một mô hình ngôn ngữ lớn lập trình mã nguồn mở mới với 7 tỷ tham số, thể hiện hiệu suất vượt trội so với các mô hình khác như Code Llama 34B và Star Coder 15B trong các tác vụ tạo mã.
- Nó hỗ trợ nhiều ngôn ngữ lập trình, bao gồm Python, JavaScript, C++ và các ngôn ngữ khác, đồng thời tích hợp với các IDE phổ biến như VS Code và JetBrains thông qua các plugin.
- aiXcoder 7B đã được huấn luyện trên 1.2 nghìn tỷ token duy nhất và xuất sắc trong việc hoàn thành mã, hiểu và tạo mã.
- Một trong những tính năng nổi bật của aiXcoder 7B là khả năng hỗ trợ đa ngôn ngữ toàn diện, đáp ứng nhu cầu của các nhà phát triển làm việc với Python, JavaScript và C++.
- Tính linh hoạt của nó cho phép tích hợp liền mạch vào các IDE phổ biến như Visual Studio Code và JetBrains thông qua các plugin thân thiện với người dùng.
- Hiệu suất ấn tượng và sự hỗ trợ của cộng đồng mã nguồn mở sôi động giúp củng cố vị trí của aiXcoder 7B như một công cụ không thể thiếu cho bất kỳ nhà phát triển nào muốn nâng cao trải nghiệm lập trình.
📌 aiXcoder 7B, một trợ lý lập trình AI mã nguồn mở mới với 7 tỷ tham số, đã thể hiện hiệu suất vượt trội so với các mô hình như Code Llama và Star Coder trong việc tạo mã. Nó hỗ trợ nhiều ngôn ngữ lập trình, tích hợp liền mạch với các IDE phổ biến, và xuất sắc trong hoàn thành, hiểu và tạo mã. Với hiệu suất ấn tượng và sự hỗ trợ của cộng đồng mã nguồn mở, aiXcoder 7B hứa hẹn sẽ là công cụ không thể thiếu cho các nhà phát triển.
Citations:
[1] aiXcoder 7B open source AI coding assistant outperforms Code Llama https://www.geeky-gadgets.com/ai-coding-assistant-aixcoder/
- Các mô hình ngôn ngữ lớn như GPT-3 đã đạt được những thành tựu ấn tượng trong xử lý ngôn ngữ tự nhiên, nhưng chúng đòi hỏi nguồn lực tính toán khổng lồ và khó triển khai rộng rãi.
- Xu hướng mới trong AI là phát triển các mô hình ngôn ngữ nhỏ, chỉ nặng vài chục MB đến vài GB, nhưng vẫn đạt hiệu suất cao trong nhiều tác vụ.
- Các mô hình nhỏ này có thể được huấn luyện nhanh hơn, tiêu tốn ít tài nguyên hơn, và dễ dàng tích hợp vào các ứng dụng và thiết bị khác nhau.
- Một số ví dụ tiêu biểu cho xu hướng này là DistilBERT (40% kích thước và 60% tốc độ của BERT), TinyBERT (chỉ 14,5 MB nhưng đạt 96% hiệu suất của BERT), hay RecurrentGEMM của Google (20MB).
- Các mô hình ngôn ngữ nhỏ mở ra triển vọng ứng dụng rộng rãi của AI trong thực tế, như chatbot, trợ lý ảo, dịch thuật, tóm tắt văn bản, phân tích quan điểm...
- Chúng cũng giúp đưa AI đến gần hơn với đại chúng, khi người dùng có thể trải nghiệm các ứng dụng AI ngay trên thiết bị cá nhân mà không cần kết nối internet liên tục.
- Tuy nhiên, việc thu nhỏ kích thước mô hình cũng đặt ra thách thức về cách duy trì hiệu suất và chất lượng kết quả. Các nhà nghiên cứu đang tích cực tìm kiếm giải pháp cho vấn đề này.
📌 Với ưu điểm về tốc độ, hiệu quả sử dụng tài nguyên và khả năng triển khai linh hoạt, các mô hình ngôn ngữ nhỏ đang trở thành xu hướng mới trong AI. Chúng hứa hẹn sẽ thúc đẩy mạnh mẽ việc ứng dụng AI vào thực tiễn cuộc sống và đưa công nghệ này đến gần hơn với đại chúng.
Citations:
[1] https://venturebeat.com/ai/why-small-language-models-are-the-next-big-thing-in-ai/
- Các nhà nghiên cứu từ Đại học Thanh Hoa và Modelbest Inc. giới thiệu MiniCPM, hai mô hình ngôn ngữ nhỏ (SLM) với 2.4B và 1.2B tham số phi nhúng.
- MiniCPM vượt trội hơn các mô hình lớn hơn như Mistral-7B-v0.1 và Llama2-13B ở hầu hết các lĩnh vực, đặc biệt là tiếng Trung.
- Phương pháp đào tạo có thể mở rộng của MiniCPM cho thấy tiềm năng cho cả quy mô mô hình và dữ liệu, với các ứng dụng tiềm năng trong phát triển mô hình ngôn ngữ lớn (LLM).
- Bộ lập lịch WSD cải thiện đào tạo liên tục và tạo điều kiện thuận lợi cho việc nghiên cứu luật mở rộng hiệu quả.
- Họ MiniCPM bao gồm các phiên bản DPO, ngữ cảnh dài và MoE, với các hướng tương lai nhằm phân tích sự mất mát.
- Phát triển LLM với hàng nghìn tỷ tham số tốn kém và đòi hỏi nhiều tài nguyên, thúc đẩy sự quan tâm đến việc khám phá SLM như một lựa chọn hiệu quả hơn.
- LLM gặp thách thức do chi phí đào tạo khổng lồ và hiệu quả hoạt động kém. Hiểu các cơ chế đào tạo của chúng là khó nắm bắt, khiến các thử nghiệm trở nên đắt đỏ.
- Triển khai các mô hình lớn như vậy trên các thiết bị như PC hoặc điện thoại thông minh thường không thực tế hoặc không hiệu quả.
📌 Các nhà nghiên cứu từ Đại học Thanh Hoa và Modelbest Inc. giới thiệu MiniCPM, hai mô hình ngôn ngữ nhỏ (SLM) với 2,4 tỷ và 1,2 tỷ tham số, vượt trội hơn các mô hình lớn hơn ở hầu hết các lĩnh vực. Phương pháp đào tạo có thể mở rộng của nó cho thấy tiềm năng cho cả quy mô mô hình và dữ liệu, mở ra triển vọng ứng dụng trong phát triển LLM. Họ MiniCPM đa dạng hứa hẹn các hướng phát triển trong tương lai.
Citations:
[1] https://www.marktechpost.com/2024/04/12/this-ai-paper-from-china-introduces-minicpm-introducing-innovative-small-language-models-through-scalable-training-approaches/
- AURORA-M là một mô hình ngôn ngữ lớn (LLM) nguồn mở đa ngôn ngữ mới với 15 tỷ tham số, được điều chỉnh cho 6 ngôn ngữ đa dạng: tiếng Anh, Phần Lan, Hindi, Nhật Bản, Việt Nam và mã lập trình.
- Bắt đầu từ mô hình StarCoderPlus, AURORA-M trải qua quá trình tiền huấn luyện liên tục trên tập dữ liệu lớn gồm 435 tỷ token, dẫn đến tổng số token huấn luyện ấn tượng là 2 nghìn tỷ.
- An toàn là nguyên tắc thiết kế cơ bản, biến AURORA-M trở thành LLM nguồn mở đa ngôn ngữ đầu tiên được tinh chỉnh trên tập hợp các hướng dẫn an toàn do con người đánh giá, giải quyết các mối quan tâm được nêu trong Lệnh hành pháp của Biden-Harris về Phát triển và Sử dụng AI An toàn, Bảo mật và Đáng tin cậy.
- Các nhà nghiên cứu đã tạo ra một tập dữ liệu lớn gồm các cặp hướng dẫn-phản hồi để tăng cường tính an toàn và khả năng phục hồi của AURORA-M, giải quyết các lĩnh vực như ngăn ngừa tổn hại, tấn công mạng, hoạt động bất hợp pháp, xâm phạm quyền riêng tư và phá vỡ các biện pháp kiểm soát an toàn.
- Kết quả đánh giá cho thấy AURORA-M thành công trong việc tránh quên thảm khốc trong các tác vụ tiếng Anh và mã hóa, đồng thời đạt được hiệu suất cạnh tranh trên các tiêu chuẩn đa ngôn ngữ.
- Đánh giá an toàn khẳng định cam kết của AURORA-M về an toàn và tuân thủ các thực tiễn phát triển AI có trách nhiệm.
📌 AURORA-M đánh dấu bước tiến đáng kể trong việc dân chủ hóa quyền truy cập vào các LLM đa ngôn ngữ và an toàn. Mô hình 15 tỷ tham số này được tinh chỉnh trên 6 ngôn ngữ (có tiếng Việt) và tập dữ liệu 2 nghìn tỷ token, đạt hiệu suất cao trên nhiều tác vụ, đồng thời tuân thủ các tiêu chuẩn pháp lý và thực tiễn phát triển AI có trách nhiệm.
https://www.marktechpost.com/2024/04/07/aurora-m-a-15b-parameter-multilingual-open-source-ai-model-trained-in-english-finnish-hindi-japanese-vietnamese-and-code/
- RakutenAI-7B là bộ mô hình ngôn ngữ lớn hướng đến tiếng Nhật do các nhà nghiên cứu của Rakuten Group, Inc. phát triển.
- Bộ mô hình bao gồm các mô hình nền tảng, mô hình được tinh chỉnh theo hướng dẫn và trò chuyện, được phát hành theo giấy phép Apache 2.0.
- RakutenAI-7B sử dụng bộ từ vựng mở rộng lên 48.000 token, cải thiện đáng kể khả năng xử lý văn bản tiếng Nhật bằng cách tăng tỷ lệ ký tự trên mỗi token.
- Mô hình được huấn luyện trên bộ dữ liệu khoảng 175 tỷ token, đã được lọc kỹ lưỡng để loại bỏ thông tin cá nhân và dữ liệu chất lượng thấp.
- Các bộ dữ liệu được sử dụng bao gồm XLSUM-ja, MARC-ja, JSQuAD và JAQKET, đánh giá khả năng tóm tắt, phân loại văn bản, trả lời câu hỏi và kiến thức tổng quát.
- RakutenAI-7B vượt trội hơn các mô hình ngôn ngữ lớn khác hướng đến tiếng Nhật trong các đánh giá chuẩn, đạt điểm trung bình 62,83 trên Japanese LM Harness, cao hơn 3 điểm so với đối thủ gần nhất.
- Phiên bản RakutenAI-7B-instruct đạt điểm trung bình 68,74 trên Japanese LM Harness, dẫn đầu gần 2 điểm.
- Mô hình cũng thể hiện hiệu suất tốt trong các tác vụ ngôn ngữ tiếng Anh, cho thấy tính linh hoạt và đa dạng của nó.
📌 RakutenAI-7B đại diện cho bước tiến quan trọng trong việc tạo ra các mô hình ngôn ngữ hiệu quả và bao quát hơn. Với cách tiếp cận hệ thống và bộ dữ liệu chất lượng cao, mô hình liên tục đạt hiệu suất tốt trong nhiều tác vụ xử lý ngôn ngữ tự nhiên, vượt trội hơn các mô hình mở khác cho tiếng Nhật. Bộ tokenizer của nó phù hợp hơn để xử lý văn bản tiếng Nhật, có khả năng dẫn đến quá trình huấn luyện và suy luận nhanh hơn, rẻ hơn.
https://www.marktechpost.com/2024/03/30/rakutenai-7b-a-suite-of-japanese-oriented-large-language-models-that-achieve-the-great-performance-on-the-japanese-language-model/
- KL3M là mô hình ngôn ngữ lớn AI đầu tiên nhận chứng nhận "Huấn luyện Công bằng" từ tổ chức kiểm toán độc lập Fairly Trained.
- Mô hình do công ty khởi nghiệp 273 Ventures phát triển, được huấn luyện chỉ trên dữ liệu miền công cộng như tài liệu chính phủ, hồ sơ pháp lý cũ, không sử dụng tài liệu có bản quyền.
- KL3M có 2 phiên bản: kl3m-170m với 170 triệu tham số và kl3m-1.7b với 1,7 tỷ tham số. Phiên bản 3,7 tỷ tham số sẽ ra mắt vào tháng tới.
- Mô hình được thiết kế cho ngành pháp lý, hỗ trợ soạn thảo hợp đồng, hóa đơn, báo cáo SEC, bằng sáng chế, nhưng cũng có khả năng tổng quát hóa tốt sang các lĩnh vực khác.
- Trên các bài kiểm tra chuẩn, KL3M-1.7b có độ rối (perplexity) thấp hơn 10 mô hình cùng loại khác và tỷ lệ đầu ra độc hại thấp hơn nhiều so với các mô hình nhỏ khác.
- Hiện KL3M đã được triển khai cho một số khách hàng là các công ty luật. Giá cả chưa được công bố.
📌 KL3M là minh chứng cho thấy các mô hình AI có thể được huấn luyện hiệu quả mà không cần dựa vào dữ liệu có bản quyền. Với khả năng tổng quát hóa tốt, độ chính xác cao và tỷ lệ đầu ra độc hại thấp, KL3M hứa hẹn sẽ mang lại nhiều ứng dụng hữu ích, không chỉ trong lĩnh vực pháp lý mà còn nhiều ngành khác.
Citations:
[1] https://venturebeat.com/ai/the-first-fairly-trained-ai-large-language-model-is-here/
#hay
- Apple đang trong quá trình đàm phán tích cực với Google để tích hợp công nghệ AI Gemini vào iPhone và cũng cân nhắc sử dụng ChatGPT của OpenAI.
- CEO Tim Cook đã xác nhận rằng Apple đang dành "một lượng thời gian và công sức đáng kể" cho các tính năng trí tuệ nhân tạo và dự định sẽ giới thiệu chúng cho khách hàng "vào cuối năm nay".
- Báo cáo từ Bloomberg cho biết các tính năng AI được tích hợp vào sản phẩm của Apple có thể sẽ được cung cấp bởi sự kết hợp giữa các mô hình AI của chính Apple và bên thứ ba. Các mô hình của Apple có thể hỗ trợ AI tạo sinh trên thiết bị với iOS 18, trong khi các tính năng AI dựa trên đám mây như tạo văn bản và hình ảnh có thể thông qua hợp tác với Google.
- Trước đó, Samsung đã thêm một loạt tính năng AI mang thương hiệu Galaxy AI vào điện thoại thông minh Galaxy S24 của mình, được hỗ trợ bởi công nghệ AI của Google. Công nghệ AI của Google cũng xuất hiện nổi bật trên thiết bị Pixel 8 của chính họ.
- Apple đã có một thỏa thuận lâu dài với Google để đặt Google Search làm mặc định trên thiết bị của mình, với giá trị ước tính lên đến 18 tỷ USD hàng năm. Tuy nhiên, các thỏa thuận như vậy ngày càng trở nên gây tranh cãi với các cơ quan quản lý.
- Một thỏa thuận AI giữa Apple và Google có thể mở rộng tầm với của công cụ AI của Google đến hơn 2 tỷ iPhone mà Apple hiện có trên thị trường. Tuy nhiên, Bloomberg lưu ý rằng điều này có thể được xem là sự nhượng bộ từ phía Apple, thừa nhận công nghệ AI tạo sinh của riêng họ đang tụt hậu so với các đối thủ.
- Các nhân viên của Apple được cho là đã thử nghiệm một chatbot nội bộ có tên là Apple GPT, và công ty được cho là có một mô hình ngôn ngữ lớn được mã hóa là Ajax, nhưng công nghệ AI của Apple được cho là kém tiên tiến hơn so với các đối thủ.
📌 Apple đang xem xét một bước đi lớn trong lĩnh vực AI bằng cách thảo luận với Google về việc tích hợp công nghệ AI Gemini vào iPhone và cũng cân nhắc sử dụng ChatGPT của OpenAI. điều này có thể được xem là sự nhượng bộ từ phía Apple, thừa nhận công nghệ AI tạo sinh của riêng họ đang tụt hậu so với các đối thủ.
https://www.theverge.com/2024/3/18/24104626/apple-license-google-gemini-generative-ai-openai-chatgpt
- Các nhà nghiên cứu tại Apple xây dựng MM1, một dòng mô hình đa phương thức tiên tiến với tới 30 tỷ tham số.
- Họ chú trọng tính minh bạch và tài liệu chi tiết, cung cấp những hiểu biết sâu sắc về cách xây dựng các mô hình ngôn ngữ lớn đa phương thức (MLLM).
- Tài liệu tỉ mỉ đề cập đến mọi thứ từ việc lựa chọn bộ mã hóa hình ảnh đến các phức tạp khi kết nối dữ liệu hình ảnh với các yếu tố ngôn ngữ.
- Một trong những khám phá quan trọng của nghiên cứu là tác động đáng kể của dữ liệu tiền huấn luyện được lựa chọn cẩn thận đến hiệu suất của mô hình.
- Các nhà nghiên cứu phát hiện ra rằng sự kết hợp thông minh giữa các cặp hình ảnh-chú thích, tài liệu hình ảnh-văn bản xen kẽ và dữ liệu chỉ văn bản là rất quan trọng để đạt được kết quả vượt trội.
- Nó nhấn mạnh tầm quan trọng của tính đa dạng trong dữ liệu huấn luyện, cho phép các mô hình tổng quát hóa tốt hơn trên các tác vụ và thiết lập khác nhau.
- Bộ mô hình MM1 thể hiện một bước tiến đáng kể, có khả năng đạt được hiệu suất cạnh tranh trên nhiều tiêu chuẩn.
- Điểm nổi bật của MM1 là quy mô lớn và các đổi mới kiến trúc, bao gồm các mô hình dày đặc và các biến thể hỗn hợp chuyên gia.
- Các mô hình này chứng minh hiệu quả của cách tiếp cận của các nhà nghiên cứu, kết hợp tiền huấn luyện quy mô lớn với lựa chọn dữ liệu chiến lược để tăng cường khả năng học của mô hình.
📌 MM1 của Apple đại diện cho một bước tiến quan trọng trong lĩnh vực MLLM với quy mô lên tới 30 tỷ tham số. Nghiên cứu nhấn mạnh tầm quan trọng của tính minh bạch, tài liệu chi tiết và lựa chọn dữ liệu chiến lược trong việc xây dựng các mô hình phức tạp này. MM1 thể hiện tiềm năng to lớn của MLLM được thiết kế tốt trong việc thiết lập các tiêu chuẩn mới về hiểu biết đa phương thức.
https://www.marktechpost.com/2024/03/16/apple-announces-mm1-a-family-of-multimodal-llms-up-to-30b-parameters-that-are-sota-in-pre-training-metrics-and-perform-competitively-after-fine-tuning/
- Deci vừa công bố mô hình ngôn ngữ lớn (LLM) mới và nhỏ hơn có tên Deci-Nano, cùng với Nền tảng Phát triển AI Tạo sinh toàn diện cho doanh nghiệp và lập trình viên.
- Deci-Nano cung cấp khả năng hiểu và lập luận ngôn ngữ với tốc độ suy luận siêu nhanh, tạo ra 256 token chỉ trong 4,56 giây trên GPU NVIDIA A100.
- Deci-Nano có giá cực kỳ cạnh tranh ở mức 0,1 đô la cho 1 triệu token đầu vào, so với 0,50 đô la của GPT-3.5 Turbo và 0,25 đô la của Claude 3 Haiku mới.
- Deci cung cấp nhiều tùy chọn triển khai Deci-Nano cho khách hàng, bao gồm các phiên bản serverless để dễ dàng mở rộng quy mô hoặc các phiên bản chuyên dụng để tinh chỉnh và nâng cao quyền riêng tư.
- Nền tảng Phát triển AI Tạo sinh của Deci bao gồm một loạt các mô hình ngôn ngữ lớn độc quyền, công cụ suy luận và giải pháp quản lý cụm suy luận AI.
- Deci cung cấp giải pháp triển khai tại chỗ đầy đủ cho khách hàng muốn công nghệ trong trung tâm dữ liệu của họ, không phải trên đám mây.
📌 Deci đang chuyển sang mô hình thương mại hóa với việc ra mắt Deci-Nano và Nền tảng Phát triển AI Tạo sinh. Deci-Nano có hiệu suất vượt trội so với các mô hình cùng kích thước, đồng thời có giá cực kỳ cạnh tranh ở mức 0,1 đô la cho 1 triệu token đầu vào, so với 0,50 đô la của GPT-3.5 Turbo và 0,25 đô la của Claude 3 Haiku mới. Nền tảng mới cung cấp giải pháp toàn diện gồm các mô hình ngôn ngữ lớn độc quyền, công cụ suy luận và quản lý cụm AI.
https://venturebeat.com/ai/deci-announces-new-ai-dev-platform-and-small-model-deci-nano/
- Apple mua lại công ty khởi nghiệp AI DarwinAI của Canada, chuyên về kiểm tra chất lượng hình ảnh và phát triển các cách thu nhỏ, tối ưu hóa hệ thống AI.
- CEO Tim Cook hứa hẹn chia sẻ thêm về tiến bộ AI của Apple trong năm 2024. Việc mua lại DarwinAI cho thấy Apple có thể chạy các mô hình AI trực tiếp trên thiết bị (on-device AI).
- Chạy thuật toán AI trên thiết bị phù hợp với quan điểm bảo mật của Apple, giữ thông tin người dùng trên thiết bị thay vì gửi lên máy chủ đám mây. Cách tiếp cận này mang lại quyền riêng tư, giảm độ trễ và chạy công cụ AI không cần kết nối internet.
- Siri đã chạy trên thiết bị iPhone, nhưng Apple đang tụt hậu trong phát triển công cụ AI tạo sinh, đòi hỏi mô hình ngôn ngữ lớn (LLM) và hệ thống tạo nội dung dựa trên mô hình.
- Các mô hình nhỏ, được huấn luyện trước, chạy hiệu quả là tốt nhất cho AI trên thiết bị. Cần tối ưu để giảm kích thước, độ phức tạp mô hình AI mà không ảnh hưởng hiệu suất. GPU và chip chuyên dụng như Neural Engine của Apple cũng giúp tăng tốc tính toán AI.
- DarwinAI dường như tập trung vào tối ưu hóa này cho việc thực thi trên thiết bị trước khi Apple mua lại.
- Hàng chục nhân viên DarwinAI đã gia nhập bộ phận AI của Apple từ đầu năm nay. Đồng sáng lập Dr. Alexander Wong làm Giám đốc Nghiên cứu Machine Learning tại Apple từ tháng 1.
- Năm 2023, Apple dẫn đầu về mua lại AI với 32 công ty khởi nghiệp, vượt Google (21), Meta (18) và Microsoft (17).
📌 Thông tin Apple mua lại DarwinAI, công ty chuyên thu nhỏ và tối ưu hệ thống AI, hé lộ kế hoạch phát triển AI trên thiết bị iPhone. Điều này phù hợp với quan điểm bảo mật của Apple, mang lại lợi ích như giảm độ trễ và chạy không cần kết nối internet. Năm 2023, Apple dẫn đầu về mua lại AI với 32 công ty khởi nghiệp.
https://www.zdnet.com/article/apples-latest-acquisition-hints-at-ai-powered-iphone-plans/
- Các LLM chuyên biệt như StarCoder2 mang lại hiệu quả và hiệu suất cao cho các tác vụ cụ thể mà không cần sự cồng kềnh của các công cụ chung chung như ChatGPT, Microsoft Copilot hay Google Gemini.
- Các mô hình nhỏ hơn như Vicuna-7B đang trở nên phổ biến hơn vì chúng dễ triển khai hơn và tiêu tốn ít tài nguyên hơn. Ví dụ, Vicuna-7B có thể chạy trên một chiếc smartphone Android nếu có đủ RAM.
- Việc đào tạo một mô hình lớn hơn tốn kém hơn. Các công ty dễ dàng xây dựng mô hình ngôn ngữ của riêng mình với các mô hình nhỏ hơn, tập trung vào một chủ đề duy nhất.
- Retrieval-Augmented Generation (RAG) cho phép triển khai một mô hình ngôn ngữ nhỏ hơn không cần đào tạo trên bất kỳ dữ liệu cụ thể nào. Thay vào đó, nó có thể lấy câu trả lời từ tài liệu và cho người dùng biết chính xác tài liệu nào chứa câu trả lời.
- Một LLM được sử dụng để quản lý nhà thông minh không cần có các tham số chứa thông tin về lập trình. Nó có thể được đào tạo trên một tập dữ liệu nhỏ hơn nhiều với các tham số thực sự liên quan.
📌 Tương lai của AI hướng tới các LLM chính xác, chuyên biệt, tập trung vào các tác vụ cụ thể như lập trình. Các mô hình nhỏ hơn, ít tốn kém hơn trong đào tạo và triển khai sẽ trở nên phổ biến, giúp các công ty dễ dàng xây dựng mô hình ngôn ngữ riêng phù hợp với nhu cầu sử dụng.
https://www.xda-developers.com/chatgpt-gemini-future-of-ai/
- Microsoft đã giới thiệu mô hình ngôn ngữ mới có tên là 1-bit LLM, với nghiên cứu BitNet đóng góp vào dự án này.
- Mô hình mới này sử dụng chỉ 1.58 bit để biểu diễn mỗi tham số (trọng số), thay vì sử dụng giá trị dấu phẩy động 16-bit (FP16) như các mô hình ngôn ngữ lớn (LLM) truyền thống.
- BitNet b1.58 giới hạn mỗi trọng số chỉ có thể nhận một trong ba giá trị: -1, 0, hoặc 1, giảm đáng kể lượng bit cần sử dụng.
- Mặc dù chỉ sử dụng 1.58 bit cho mỗi tham số, BitNet b1.58 vẫn đạt hiệu suất tương đương với các mô hình truyền thống cùng kích thước và dữ liệu huấn luyện, cả về độ hỗn loạn (perplexity) và hiệu suất công việc cuối cùng.
- Mô hình 1.58-bit LLM này giới thiệu một cách mới để mở rộng và huấn luyện mô hình ngôn ngữ, cân bằng giữa hiệu suất cao và chi phí hiệu quả.
- Nó mở ra khả năng tính toán mới và tiềm năng thiết kế phần cứng chuyên biệt tối ưu cho các mô hình 1-bit LLM.
- Bài báo cũng đề cập đến khả năng hỗ trợ chuỗi dài tự nhiên trong LLMs do BitNet b1.58, và đề xuất nghiên cứu tiếp theo về nén không mất dữ liệu để tăng hiệu quả hơn nữa.
- Cuối năm ngoái, Microsoft đã giới thiệu phiên bản mới của mô hình ngôn ngữ nhỏ (SML) Phi-2 với 2.7 tỷ tham số, vượt trội về khả năng hiểu và lý luận.
📌 Mô hình ngôn ngữ 1-bit LLM của Microsoft, cùng với nghiên cứu BitNet b1.58, đánh dấu một bước tiến quan trọng trong việc phát triển công nghệ AI. Việc giảm lượng bit cần thiết cho mỗi trọng số xuống chỉ còn 1.58 bit không những giúp giảm chi phí về mặt bộ nhớ, độ trễ, thông lượng và tiêu thụ năng lượng mà còn duy trì hiệu suất tương đương với các mô hình truyền thống. Điều này không chỉ mở ra hướng đi mới cho việc mở rộng và huấn luyện mô hình ngôn ngữ mà còn cho thấy tiềm năng trong việc thiết kế phần cứng chuyên biệt. Sự đổi mới này cũng gợi ý về khả năng hỗ trợ chuỗi dài tự nhiên và tiếp tục nghiên cứu về nén không mất dữ liệu, hứa hẹn sẽ mang lại hiệu quả cao hơn nữa trong tương lai.
https://analyticsindiamag.com/microsoft-introduces-1-bit-llm/
- Mistral là sự kết hợp hoàn hảo giữa giáo dục kỹ thuật Pháp và các công ty công nghệ lớn của Mỹ, với 3 trong số 6 người sáng lập là sản phẩm của các trường kỹ thuật hàng đầu của Pháp.
- Các nhà sáng lập Mistral có kinh nghiệm làm việc tại các phòng thí nghiệm nghiên cứu của Google và Meta, đặc biệt là trong việc xây dựng các mô hình ngôn ngữ lớn (LLMs) tại Paris.
- Mistral đã đặc biệt giỏi trong việc thu thập dữ liệu để huấn luyện mô hình của mình, cho phép các mô hình của họ nhỏ hơn nhiều so với các mô hình khác như GPT-4 của OpenAI.
- Sự tập trung vào việc lựa chọn dữ liệu của Mistral giúp công ty sử dụng sức mạnh tính toán một cách hiệu quả hơn, với chi phí huấn luyện mô hình mới thấp hơn nhiều so với 100 triệu USD mà OpenAI đã chi cho GPT-4.
- Mistral cũng tận dụng lợi thế của người đi sau, học hỏi từ công việc mà OpenAI và các công ty khác đã làm, và kết hợp với sự hiểu biết về chính trị, điều này rất có lợi khi nhiều chính phủ coi LLMs nội địa là lợi thế kinh tế và chiến lược.
- Cédric O, một trong những người đồng sáng lập Mistral và cựu Bộ trưởng Kỹ thuật số Pháp, giữ mối liên hệ trực tiếp với Tổng thống Emmanuel Macron, người đã quan tâm sâu sắc đến AI và đã hỗ trợ Mistral trong việc chống lại các quy định của Liên minh Châu Âu về AI.
📌 Mistral đã chứng minh sự thành công của mình thông qua việc kết hợp tài năng kỹ thuật từ các trường kỹ thuật hàng đầu của Pháp và kinh nghiệm từ các công ty công nghệ lớn như Google và Meta. Sự thông minh trong việc lựa chọn và quản lý dữ liệu đã giúp Mistral tạo ra các mô hình AI hiệu quả hơn với chi phí thấp hơn, đồng thời tận dụng lợi thế của người đi sau để phát triển nhanh chóng. Sự kết hợp giữa chuyên môn kỹ thuật và sự hiểu biết về chính trị, cùng với sự hỗ trợ từ cựu Bộ trưởng Kỹ thuật số Pháp và Tổng thống Emmanuel Macron, đã tạo nên một lợi thế cạnh tranh mạnh mẽ cho Mistral trong ngành công nghiệp AI đang phát triển nhanh chóng.
Citations:
[1] https://www.economist.com/business/2024/02/26/meet-the-french-startup-hoping-to-take-on-openai
- Các công ty quảng cáo và thương hiệu đang áp dụng trí tuệ nhân tạo tạo sinh (AI tạo sinh) và sử dụng mô hình ngôn ngữ nhỏ (SLMs) để giải quyết các nhiệm vụ cụ thể.
- Michael Olaye, Phó Chủ tịch cấp cao và Giám đốc quản lý chiến lược và đổi mới tại R/GA, cho biết họ bắt đầu thử nghiệm SLMs vào đầu tháng Giêng.
- Microsoft công bố ra mắt SLM của riêng mình, Phi-2, vào tháng 11 năm ngoái và trong cuộc gọi thu nhập gần đây nhất, Microsoft tiết lộ rằng khách hàng của họ bao gồm Anker, Ashley, AT&T, EY và Thomson Reuters đang khám phá Phi cho các ứng dụng AI của họ.
- Sự gia tăng của SMLs cho thấy sự chuyển hướng từ các mô hình ngôn ngữ lớn tốn kém và tốn nhiều tài nguyên sang các lựa chọn thay thế hiệu quả và linh hoạt hơn.
- Cristina Lawrence, Phó Chủ tịch điều hành về trải nghiệm người tiêu dùng và nội dung tại Razorfish, nhấn mạnh rằng điều quan trọng đối với nhà quảng cáo trong năm 2024 là phải nhận thức được SLMs như một lĩnh vực AI tạo sinh đang phát triển.
📌 Mô hình ngôn ngữ nhỏ (SLMs) đang dần trở thành công cụ quan trọng trong ngành quảng cáo, với khả năng cung cấp giải pháp AI tạo sinh cụ thể cho từng nhiệm vụ và thương hiệu. Sự chuyển đổi này không chỉ giúp tối ưu hóa hiệu quả công việc mà còn có thể giảm chi phí đáng kể. Các công ty lớn như Microsoft đã nhận ra tiềm năng của SLMs và đang tích cực khám phá ứng dụng của chúng trong các hoạt động kinh doanh. Điều này mở ra một hướng đi mới cho ngành quảng cáo trong việc áp dụng công nghệ AI, đặc biệt là khi các thương hiệu luôn tìm kiếm cách để nâng cao hiệu suất và giảm thiểu chi phí.
Citations:
[1] https://www.adweek.com/media/introducing-small-language-models-the-ad-industrys-latest-gen-ai-fix/
- Google đã công bố mã nguồn mở cho Magika, một mô hình AI được thiết kế để xác định loại tệp, như một phần của Sáng kiến Phòng thủ Mạng AI của họ.
- Magika được sử dụng bởi Gmail, Google Drive, Chrome's Safe Browsing, và VirusTotal để xác định chính xác và điều hướng dữ liệu cho quá trình xử lý tiếp theo.
- Mô hình này giúp xác định nhanh chóng loại tệp từ dữ liệu tệp, một cách mà Google tin là đủ tốt để sử dụng trong sản xuất.
- Việc xác định nội dung thực sự của một tệp do người dùng gửi lên không hề đơn giản như nó có vẻ, đặc biệt là khi không thể chỉ dựa vào phần mở rộng tệp hoặc dựa vào các quy tắc và phép suy luận do con người tạo ra.
- Magika sử dụng một mô hình đã được huấn luyện để nhanh chóng xác định loại tệp từ dữ liệu tệp, giúp giảm thiểu rủi ro từ các tệp độc hại giả mạo.
- Mô hình này có thể hữu ích cho bất kỳ ai cần quét các tài liệu do người dùng cung cấp, từ video giả mạo thành các tệp thực thi đến các tệp đính kèm email không phải là những gì chúng tuyên bố.
📌 Google đã mở mã nguồn cho Magika, một mô hình AI giúp xác định loại tệp một cách chính xác và nhanh chóng, là một bước tiến quan trọng trong việc phòng thủ mạng. Sự ra đời của Magika không chỉ giúp các dịch vụ như Gmail, Google Drive, và Chrome's Safe Browsing tăng cường khả năng bảo mật mà còn hỗ trợ cộng đồng trong việc phát hiện và phân tích malware. Việc công bố mã nguồn mở cho phép các nhà phát triển và chuyên gia bảo mật trên toàn thế giới tận dụng công nghệ này để tạo ra một môi trường mạng an toàn hơn.
Citations:
[1] https://www.theregister.com/2024/02/17/google_ai_magika/
- Các mô hình ngôn ngữ lớn (LLMs) như GPT-4 của OpenAI và LLaMA của Meta đang dần được thay thế bởi các mô hình ngôn ngữ nhỏ gọn (SLMs) do khả năng tiết kiệm nguồn lực và chi phí.
- LLMs yêu cầu nguồn lực tính toán lớn và năng lượng đáng kể để vận hành, điều này có thể là rào cản đối với các tổ chức nhỏ không có đủ ngân sách.
- Rủi ro lệch lạc thuật toán trong LLMs có thể xuất hiện do dữ liệu đào tạo không đa dạng, dẫn đến kết quả sai lệch hoặc "ảo giác" trong ngành.
- SLMs là phiên bản thu gọn của LLMs, dễ dàng hơn trong việc đào tạo, tinh chỉnh và triển khai, đồng thời tiết kiệm chi phí vận hành.
- Sự xuất hiện của SLMs đánh dấu sự chuyển dịch tiềm năng từ LLMs tốn kém và nặng về nguồn lực sang các mô hình ngôn ngữ hiệu quả và gọn nhẹ hơn.
📌 Sự trỗi dậy của các mô hình ngôn ngữ nhỏ gọn (SLMs) đang mở ra cánh cửa mới cho các doanh nghiệp vừa và nhỏ, giúp họ tiếp cận công nghệ AI mà không cần đầu tư quá nhiều vào nguồn lực và năng lượng. Sự thay thế này không chỉ giảm bớt gánh nặng tài chính mà còn hạn chế rủi ro lệch lạc thuật toán, một vấn đề thường gặp trong các mô hình lớn do dữ liệu đào tạo không đủ đa dạng. SLMs, với khả năng dễ dàng triển khai và tinh chỉnh, đang dần trở thành lựa chọn ưu tiên, phản ánh xu hướng chung của ngành công nghiệp AI hướng tới sự tối ưu và tiết kiệm.
Citations:
[1] https://thenewstack.io/the-rise-of-small-language-models/
- Ankush Sabharwal, đồng sáng lập CoRover.ai, đã phát triển BharatGPT và mới đây công ty đã ra mắt tablet giáo dục Milkyway với trợ lý ảo BharatGPT.
- CoRover.ai bắt đầu hành trình AI từ năm 2016 và đã xây dựng trợ lý ảo cho các đối tác và cơ quan chính phủ như IRCTC, MaxLife, Cảnh sát Chennai và LIC.
- BharatGPT của CoRover hỗ trợ thông tin, giao dịch, tư vấn và hỗ trợ đa ngôn ngữ cho 14 thứ tiếng Ấn Độ, bao gồm cả âm thanh, video và văn bản.
- CoRover.ai đã sử dụng mô hình Gordon của Microsoft để xây dựng trợ lý ảo và sau đó tinh chỉnh mô hình Pythia dựa trên Instruct GPT từ Allen AI Institute với 6.9 tỷ tham số.
- BharatGPT được sử dụng để cung cấp năng lực cho các trợ lý ảo khác và không tính phí thêm cho việc xây dựng mô hình riêng.
- CoRover.ai có quyền thu thập dữ liệu từ khách hàng và đang tìm cách mua thêm GPU để xây dựng mô hình cơ sở.
- Sabharwal nhấn mạnh việc sử dụng các mô hình cơ sở có sẵn để xây dựng trợ lý ảo cho các trường hợp sử dụng cụ thể thay vì mô hình tổng quát.
- CoRover.ai được Google hỗ trợ và sử dụng dịch vụ đám mây của Google để xây dựng LLMs, đồng thời thuê GPU từ Google.
- CoRover.ai có hơn 400 khách hàng tiềm năng từ Ấn Độ, Hàn Quốc và các nơi khác trên thế giới, với mục tiêu cung cấp trợ lý ảo tập trung vào con người.
📌 CoRover.ai, dưới sự đồng sáng lập của Ankush Sabharwal, đã đạt được những bước tiến quan trọng trong việc phát triển BharatGPT, một trợ lý ảo hỗ trợ đa ngôn ngữ và đa dạng hình thức như âm thanh, video và văn bản. Với việc tích hợp trợ lý ảo vào tablet Milkyway, CoRover.ai không chỉ mở rộng ảnh hưởng của mình trong lĩnh vực giáo dục mà còn hướng tới việc cung cấp giải pháp AI từ cốt lõi cho các doanh nghiệp và cơ quan chính phủ. Sự hợp tác với Google và việc sử dụng dữ liệu độc đáo từ Ấn Độ cho phép CoRover.ai tạo ra các mô hình AI mạnh mẽ, đồng thời đảm bảo rằng dữ liệu được giữ lại trong nước. Với hơn 1,3 tỷ người dùng thông qua các khách hàng của mình và mục tiêu phát triển trợ lý ảo tập trung vào con người, CoRover.ai đang định hình tương lai của AI tại Ấn Độ và trên toàn cầu.
Citations:
https://analyticsindiamag.com/corover-ai-is-the-silent-winner-of-indian-llm-race/
- Google đã giới thiệu 'localllm', một bộ công cụ và thư viện hỗ trợ phát triển ứng dụng AI thế hệ mới trên CPU địa phương.
- 'localllm' cho phép truy cập dễ dàng vào các mô hình được lượng tử hóa từ HuggingFace qua tiện ích dòng lệnh.
- Giải pháp này loại bỏ nhu cầu sử dụng GPU, mang lại giải pháp hiệu quả cho việc phát triển ứng dụng.
- 'localllm' tập trung vào việc sử dụng các mô hình được tối ưu hóa cho các thiết bị cục bộ có nguồn lực tính toán hạn chế.
- Các mô hình này được lưu trữ trên Hugging Face và được điều chỉnh để tương thích với phương pháp lượng tử hóa, cho phép hoạt động mượt mà trên Cloud Workstations mà không cần GPU.
- Mô hình lượng tử hóa cung cấp hiệu suất cải thiện bằng cách sử dụng các kiểu dữ liệu độ chính xác thấp hơn, giảm dấu chân bộ nhớ và tăng tốc độ suy luận.
- Kết hợp mô hình lượng tử hóa với Cloud Workstations tăng cường tính linh hoạt, khả năng mở rộng và hiệu quả về chi phí.
- Mục tiêu là vượt qua các hạn chế khi phụ thuộc vào máy chủ từ xa hoặc các thể hiện GPU dựa trên đám mây, giải quyết các vấn đề liên quan đến độ trễ, an ninh và phụ thuộc vào dịch vụ của bên thứ ba.
- Các tính năng và lợi ích chính bao gồm việc thực thi LLM không cần GPU, năng suất tăng cường, hiệu quả chi phí thông qua việc giảm chi phí cơ sở hạ tầng, cải thiện an ninh dữ liệu bằng cách chạy LLM một cách địa phương, và tích hợp mượt mà với các dịch vụ Google Cloud.
📌 Google đã tạo ra một bước tiến mới trong lĩnh vực phát triển ứng dụng AI với việc giới thiệu 'localllm', một công cụ cho phép các nhà phát triển tạo ra các ứng dụng AI thế hệ mới mà không cần đến sức mạnh của GPU. Sự hợp tác giữa Google và Hugging Face mở ra cơ hội cho các công ty xây dựng AI của riêng mình với các mô hình mở từ Hugging Face và các tính năng đám mây và phần cứng mới nhất từ Google Cloud. Các mô hình lượng tử hóa được tối ưu hóa cho việc hoạt động trên các thiết bị địa phương, giảm bớt sự phụ thuộc vào GPU và giảm chi phí cơ sở hạ tầng, đồng thời cải thiện an ninh dữ liệu và tăng cường năng suất. Công cụ này không chỉ giúp giảm độ trễ và tăng cường bảo mật mà còn hỗ trợ tích hợp mượt mà với các dịch vụ của Google Cloud, đem lại lợi ích to lớn cho các nhà phát triển và doanh nghiệp trong việc triển khai các giải pháp AI một cách linh hoạt và hiệu quả.
Citations:
[1] https://github.com/googlecloudplatform/localllm.
- Nghiên cứu cách trẻ em học có thể giúp phát triển mô hình AI mạnh mẽ hơn.
- Trẻ sơ sinh có khả năng hiểu bản chất vật lý của thế giới và học nhanh các khái niệm, ngôn ngữ mới dù thông tin có hạn.
- Các hệ thống AI hiện tại thiếu khả năng này, ví dụ như mô hình ngôn ngữ của ChatGPT giỏi dự đoán từ tiếp theo nhưng không có "common sense" của trẻ nhỏ.
- Các nhà nghiên cứu tại Đại học New York thử nghiệm đào tạo AI với dữ liệu nhỏ: trải nghiệm thị giác và âm thanh của một đứa trẻ học nói.
- Một em bé tò mò tên Sam đã giúp AI học được nhiều điều từ dữ liệu hạn chế.
- Trẻ em là nguồn cảm hứng cho các nhà nghiên cứu, học qua quan sát và thử nghiệm, và con người ngày càng thông minh khi học hỏi thêm về thế giới.
- Tâm lý học phát triển cho rằng trẻ em có trực giác về những gì sẽ xảy ra tiếp theo.
- Hệ thống AI hiện tại giỏi thực hiện nhiệm vụ cụ thể như chơi cờ hoặc tạo văn bản giống như do con người viết nhưng lại cứng nhắc và thiếu "common sense" để hoạt động trơn tru trong thế giới hỗn độn.
📌 Nghiên cứu về cách trẻ em học hỏi mở ra hướng tiếp cận mới trong việc phát triển AI, với hy vọng tạo ra các hệ thống thông minh có khả năng tự học hỏi và thích ứng như con người. Qua thí nghiệm với em bé Sam, các nhà nghiên cứu đã chứng minh rằng AI có thể học được từ lượng dữ liệu hạn chế, điều này đặt nền móng cho việc xây dựng các mô hình AI linh hoạt và có khả năng suy luận tốt hơn. Điều này không chỉ mở ra cánh cửa cho việc tạo ra các hệ thống AI có khả năng hiểu và tương tác với thế giới phức tạp của chúng ta mà còn cho thấy tiềm năng to lớn của việc áp dụng các nguyên tắc học hỏi của trẻ em vào AI.
📌 Orion-14B đánh dấu một cột mốc quan trọng trong lĩnh vực nghiên cứu AI, đặc biệt là trong việc xây dựng mô hình ngôn ngữ đa ngôn ngữ với khả năng xử lý dữ liệu đa dạng. Sự kết hợp của dữ liệu huấn luyện khổng lồ 2,5 ngàn tỷ tokens và chiều dài ngữ cảnh 200.000 tokens cùng các phiên bản tối ưu hóa cho các tác vụ cụ thể như Chat RAG và Chat Plugin, cùng với phiên bản long-chat và quantized cho thấy Orion-14B không chỉ mạnh mẽ về quy mô mà còn linh hoạt và hiệu quả. Với việc chiếm ưu thế trong các bài kiểm tra tiếng Nhật và tiếng Hàn, mô hình này mở ra hướng tiếp cận mới cho NLP đa ngôn ngữ và có tiềm năng ứng dụng rộng rãi trong ngành công nghiệp AI.
- Tập đoàn lớn của Việt Nam, Vingroup, đã tham gia cuộc đua phát triển chương trình AI tạo sinh phục vụ ngôn ngữ và văn hóa địa phương.
- ViGPT, phát triển bởi công ty con VinBigData (VBD), gây ấn tượng mạnh khi sửa lỗi cho người dùng trong sự kiện ra mắt.
- ViGPT là chương trình AI tạo sinh đầu tiên ở Việt Nam có sẵn cho công chúng.
- Thị trường AI tạo sinh toàn cầu đang phát triển với tốc độ 42% mỗi năm, dự kiến đạt 1,3 nghìn tỷ USD vào năm 2032.
- Các công ty công nghệ lớn của Mỹ như OpenAI, Google và Amazon.com đang dẫn đầu thị trường này.
- Vingroup quyết định tự phát triển công nghệ AI để tận dụng dữ liệu tiếng Việt, tăng độ chính xác so với các đối thủ nước ngoài.
- Mô hình ngôn ngữ lớn (LLM) của ViGPT hoạt động dựa trên 1,6 tỷ tham số, nhỏ hơn so với GPT-4 của OpenAI.
- Theo đánh giá của Vietnamese Multitask Language Understanding, ViGPT vượt trội so với nhiều đối thủ nước ngoài và đứng thứ hai sau ChatGPT.
- Vingroup áp dụng AI vào xe điện VinFast, cho phép điều khiển xe bằng lệnh giọng nói tiếng Việt và dự định tích hợp AI vào lĩnh vực tài chính, bảo hiểm và logistics.
- Nhu cầu về AI cho người không nói tiếng Anh là ngôn ngữ chính là rất lớn.
- Ở Nhật Bản và Hàn Quốc, các công ty cũng đang phát triển AI tạo sinh cho ngôn ngữ địa phương.
- Nhu cầu phát triển AI địa phương được thúc đẩy bởi rủi ro phụ thuộc quá nhiều vào Mỹ, đặc biệt là về cạnh tranh quốc tế và an ninh quốc gia.
- Trong khi đó, ở Trung Quốc, các công ty như Baidu, Tencent Holdings và Alibaba Group Holding đang phát triển AI tạo sinh phục vụ ngôn ngữ và thị trường Trung Quốc.
📌 Với sự ra đời của chương trình AI tạo sinh ViGPT, Vingroup không chỉ khẳng định vị thế trong cuộc đua công nghệ AI tại Việt Nam mà còn đang mở rộng cơ hội để cạnh tranh trên thị trường toàn cầu. ViGPT đã chứng tỏ khả năng vượt trội trong việc hỗ trợ tiếng Việt, mở đường cho việc ứng dụng rộng rãi trong các lĩnh vực như xe điện, tài chính và hơn thế nữa. Với thị trường AI tạo sinh toàn cầu dự báo sẽ đạt giá trị lên đến 1,3 nghìn tỷ USD vào năm 2032, bước tiến của Vingroup cung cấp một góc nhìn mới về tiềm năng to lớn của AI địa phương và sự cần thiết trong việc phát triển công nghệ phù hợp với từng ngôn ngữ cụ thể.
📌 Năm 2024, ngành công nghệ sẽ chứng kiến sự thay đổi lớn trong lĩnh vực AI tạo sinh với sự chuyển hướng sang các mô hình nhỏ hơn, nguồn mở, dễ tiếp cận và tiết kiệm chi phí. Doanh nghiệp phần mềm dự kiến sẽ thấy sự gia tăng doanh thu khoảng 10 tỷ USD từ việc tích hợp AI, trong khi người dùng iPhone có thể sẽ sử dụng thiết bị của họ lâu hơn, trung bình 8 năm. Sự phát triển của các hệ thống vệ tinh sẽ mang lại lợi ích cho người dùng IoT và smartphone, với dự đoán sự tăng trưởng trong việc bán ra smartphone có khả năng kết nối với vệ tinh lên đến 200 triệu thiết bị vào năm 2024.
📌 Stability AI đã giới thiệu mô hình ngôn ngữ mới có tên Stable LM 2 1.6B, chứa 1,6 tỷ tham số, mạnh mẽ hơn nhưng nhỏ gọn hơn so với các mô hình trước đó. Mô hình này hỗ trợ dữ liệu đa ngôn ngữ và tập trung vào việc cung cấp công cụ cho các nhà phát triển để đổi mới và xây dựng dựa trên mô hình hiện tại. Được huấn luyện trên dữ liệu chất lượng cao và nhiều hơn, Stable LM 2 1.6B hứa hẹn sẽ cải thiện các tiêu chuẩn hiện tại và mở rộng khả năng tiếp cận của AI tạo sinh, ngay cả khi nó có thể gặp phải một số hạn chế do kích thước nhỏ của mình.
📌 Sakana AI, một công ty khởi nghiệp AI từ Tokyo, đã nhanh chóng thu hút sự chú ý với việc gọi vốn thành công 30 triệu USD chỉ sau một năm thành lập, phản ánh niềm tin mạnh mẽ từ cả các nhà đầu tư công nghệ hàng đầu của Silicon Valley và Nhật Bản. Sự đầu tư này không chỉ củng cố tài chính cho Sakana AI mà còn chứng minh tiềm năng của họ trong việc định hình lại lĩnh vực AI với một hướng đi mới, chú trọng đến sự hiệu quả và bền vững hơn là kích thước lớn của các mô hình. Việc các công ty công nghệ lớn như Sony, NTT và KDDI tham gia vòng gọi vốn cũng là dấu hiệu cho thấy Nhật Bản đang nỗ lực tăng cường ảnh hưởng của mình trong lĩnh vực công nghệ chiến lược này.
📌 Mô hình SLM như Phi 2 của Microsoft Research mở ra hướng tiếp cận mới trong việc phát triển AI tạo sinh, với khả năng đạt hiệu suất cao mà vẫn giảm thiểu nguồn lực cần thiết. Với 2,7 tỷ tham số và quá trình huấn luyện kéo dài 14 ngày cùng 96 GPU Nvidia A100, Phi 2 không chỉ phù hợp với các tổ chức mà còn đáp ứng nhu cầu của các ứng dụng cần mô hình AI nhẹ và nhanh. Sự linh hoạt và kích thước nhỏ gọn của SLM như Phi 2 có tiềm năng lớn trong việc tái định nghĩa giao diện người dùng và tương tác dữ liệu không cấu trúc.
📌 Nvidia đang làm thay đổi cách người tiêu dùng tương tác với AI thông qua việc giới thiệu các chip AI mới và công cụ phát triển dễ sử dụng. Các chip AI RTX 40 series mở ra cơ hội sử dụng AI mạnh mẽ trong máy tính cá nhân, trong khi việc hợp tác với các nhà sản xuất laptop như Acer, Dell, và Lenovo giúp AI trở nên phổ biến hơn. Việc hỗ trợ các mô hình AI đa dạng và cung cấp công cụ phát triển dễ dàng sử dụng khẳng định vai trò của Nvidia trong việc đưa AI vào cuộc sống hàng ngày của người dùng.
📌 Bài viết cung cấp thông tin chi tiết về cách tối ưu hóa mô hình Ngôn ngữ Nhỏ trên Raspberry Pi, từ việc cập nhật phần mềm, cài đặt mô hình Tiny LLaMA, đến tinh chỉnh và benchmark mô hình. Mục đích là tạo ra một trợ lý ảo hiệu quả và đa năng trên thiết bị Raspberry Pi, phù hợp cho các dự án tự động hóa nhà cửa hay robot. Việc sử dụng công nghệ OpenBLAS và hỗ trợ GPU cũng được đề cập nhưng cần cân nhắc vì kết quả không đồng đều.
📌 Mô hình ngôn ngữ Phi-2 của Microsoft, với 2,7 tỷ tham số, đã chứng minh được sức mạnh vượt trội so với các mô hình lớn hơn tới 25 lần, nhờ vào việc mở rộng kích thước mô hình và cải thiện dữ liệu đào tạo. Phi-2 đã gây ấn tượng mạnh với giới nghiên cứu, làm nền tảng cho các thí nghiệm về tính giải thích, tinh chỉnh và an toàn của AI. Tuy nhiên, mô hình này vẫn còn những hạn chế như sản xuất mã không chính xác, hạn chế về kiến thức mã nguồn, và chưa được tinh chỉnh theo hướng dẫn cụ thể. Microsoft đang đợi sự phản hồi từ cộng đồng để cải thiện mô hình này.
📌 TinyLlama mở ra kỷ nguyên mới cho ngành xử lý ngôn ngữ tự nhiên (NLP), nơi mà hiệu suất cao không còn đồng nghĩa với việc sử dụng nhiều tài nguyên tính toán. Với kích thước nhỏ gọn và khả năng cạnh tranh, TinyLlama không chỉ thúc đẩy nghiên cứu trong lĩnh vực NLP mà còn làm cho công nghệ này trở nên tiếp cận hơn với cộng đồng lớn hơn, đặc biệt là những người dùng có nguồn lực hạn chế. Điều này chứng minh sự tinh gọn không hề giảm bớt khả năng của một mô hình AI, khi mà TinyLlama với 1.1 tỷ tham số vẫn đạt được hiệu suất xuất sắc trên nhiều nhiệm vụ khác nhau.
📌 Trong quý vừa qua, Dukaan đã sa thải 90% đội ngũ nhân viên hỗ trợ và áp dụng chatbot AI Lina, dẫn đến việc giảm chi phí nhân sự từ 2 triệu USD xuống còn 200 nghìn USD. Tuy nhiên, sự cố kỹ sư mua xe với giá 1 USD cho thấy rõ ràng rằng AI vẫn cần được giám sát cẩn thận. Các chuyên gia nhấn mạnh sự cần thiết của việc kết hợp AI với nhân viên để đạt hiệu quả cao nhất, với 75% các trường hợp hỗ trợ khách hàng được giải quyết mà không cần can thiệp của con người, nhưng 25% còn lại vẫn đòi hỏi sự nhạy bén và sáng suốt chỉ có ở nhân viên sống.
📌 Nvidia, dẫn đầu thị trường chip AI, đang đối mặt với sự cạnh tranh từ các mô hình LLM nhỏ gọn và tiết kiệm chi phí, cũng như từ các sản phẩm của Intel. Sự phát triển của công nghệ nguồn mở như Mistral 7B làm giảm nhu cầu về GPU cao cấp của Nvidia, đe dọa đến dự báo tăng trưởng của công ty. Với tăng trưởng doanh thu 206% trong quý gần nhất, Nvidia cần đánh giá lại chiến lược để duy trì vị thế trong bối cảnh thị trường AI đang thay đổi.
🧠 Bộ dữ liệu TinyGSM từ CMU và Microsoft mở ra hướng mới trong việc đào tạo AI, cung cấp các bài toán từ vựng toán học phức tạp kèm giải pháp Python. Sự kết hợp giữa toán học và ngôn ngữ tự nhiên thông qua TinyGSM sẽ làm tăng khả năng giải quyết vấn đề và hiểu biết của AI, đánh dấu bước tiến quan trọng trong lĩnh vực này.
Kết luận: Microsoft ra mắt Phi-2, một mô hình ngôn ngữ nhỏ (SLM), làm sáng tỏ sự khác biệt giữa SLMs và LLMs như ChatGPT. Phi-2 được thiết kế để cung cấp giải pháp AI hiệu quả về chi phí và tối ưu hóa, nhắm vào các doanh nghiệp nhỏ và vừa và ứng dụng cần giải pháp linh hoạt. Sự phát triển này mở rộng khả năng tiếp cận của công nghệ AI, đồng thời nhấn mạnh tầm quan trọng của việc phát triển các loại mô hình AI đa dạng để phục vụ nhu cầu đa dạng.
- Các mô hình AI lớn hiện có khả năng tự tạo ra các công cụ AI nhỏ hơn mà không cần sự can thiệp của con người, theo nhóm nghiên cứu từ MIT và một số trường Đại học California cùng công ty công nghệ AI Aizip.
- Mô hình AI lớn như ChatGPT chạy trên nền tảng có thể tự sao chép một cách tự động. Yan Sun, CEO của Aizip, so sánh việc này như "anh trai lớn giúp anh trai nhỏ phát triển". Đây được coi là bước đầu tiên hướng tới sự tự phát triển của AI.
- Công nghệ mới này cho phép thiết kế một mô hình AI hoàn toàn tự động mà không cần sự tham gia của con người trong quy trình, theo nhà nghiên cứu Yubei Chen.
- Trong khi mô hình ngôn ngữ lớn như ChatGPT tốn chi phí lên đến $700,000 mỗi ngày để vận hành, các mô hình AI nhỏ hơn - thường được gọi là tiny machine learning (TinyML) - có thể vận hành với chi phí thấp và có thể được tích hợp trong các thiết bị di động.
- TinyML có thể được sử dụng cho các nhiệm vụ cụ thể từ nhận diện khuôn mặt đến thiết bị trợ thính và đồ dùng gia đình. Sun nhấn mạnh rằng họ đang làm việc để đưa trí thông minh vào cuộc sống hàng ngày, làm cho cuộc sống an toàn hơn.
- Nhóm nghiên cứu tập trung vào việc tạo ra các AI nhỏ nhưng cho rằng quá trình thiết kế hiện có thể được thực hiện tự động bởi AI thông minh hơn. Họ tin rằng trong tương lai, AI lớn và nhỏ sẽ hợp tác và xây dựng một hệ sinh thái trí tuệ đầy đủ.
Kết luận: Các nhà khoa học đã phát triển một công nghệ mới cho phép các mô hình AI lớn tự tạo ra và huấn luyện các mô hình AI nhỏ mà không cần sự can thiệp của con người. Điều này mở ra khả năng triển khai AI trong nhiều lĩnh vực với chi phí thấp hơn và quy mô nhỏ gọn, hướng tới việc tạo ra một hệ sinh thái trí tuệ toàn diện.