Meta phát hành Llama 3.3 hiệu năng cao, 70 tỷ tham số, tiết kiệm chi phí GPU

- Meta vừa công bố Llama 3.3, mô hình ngôn ngữ lớn đa ngôn ngữ nguồn mở mới nhất, do Ahmad Al-Dahle - Phó chủ tịch AI tạo sinh của Meta thông báo

- Model có 70 tỷ tham số nhưng cho kết quả tương đương với phiên bản Llama 3.1 có 405 tỷ tham số, giúp tiết kiệm đáng kể tài nguyên tính toán

- Llama 3.3 được huấn luyện trên:
  + 15 nghìn tỷ token từ dữ liệu công khai
  + 25 triệu ví dụ được tạo tổng hợp
  + Sử dụng 39,3 triệu giờ GPU H100-80GB

- Ưu điểm nổi bật:
  + Độ chính xác 91,1% trong các tác vụ suy luận đa ngôn ngữ
  + Hỗ trợ nhiều ngôn ngữ: Đức, Pháp, Ý, Hindi, Bồ Đào Nha, Tây Ban Nha, Thái và Anh
  + Chi phí sinh token chỉ 0,01 USD/triệu token
  + Cửa sổ ngữ cảnh 128k token (khoảng 400 trang sách)

- Về môi trường:
  + Phát thải 11.390 tấn CO2
  + Meta sử dụng năng lượng tái tạo để bù đắp, đạt mức phát thải ròng bằng 0

- Tiết kiệm tài nguyên:
  + Giảm bộ nhớ GPU từ 1.944 GB xuống còn 4 GB
  + Tiết kiệm đến 600.000 USD chi phí GPU ban đầu
  + Giảm 24 lần tải GPU so với GPU H100 tiêu chuẩn 80 GB

📌 Llama 3.3 đánh dấu bước tiến mới trong việc tối ưu mô hình AI: nhỏ gọn với 70 tỷ tham số nhưng hiệu năng ngang ngửa model 405 tỷ tham số, tiết kiệm 600.000 USD chi phí GPU, đạt độ chính xác 91,1% trong xử lý đa ngôn ngữ và hoạt động với phát thải carbon ròng bằng 0.



https://venturebeat.com/ai/meta-launches-open-source-llama-3-3-shrinking-powerful-bigger-model-into-smaller-size/

Meta ra mắt Llama 3.3 mã nguồn mở, thu nhỏ mô hình mạnh mẽ lớn hơn thành kích thước nhỏ hơn

@carlfranzen
6 tháng 12, 2024, 10:24 AM

 

Phó Chủ tịch AI tạo sinh của Meta, Ahmad Al-Dahle, hôm nay đã công bố trên mạng xã hội đối thủ X về việc phát hành Llama 3.3, mô hình ngôn ngữ lớn (LLM) đa ngôn ngữ mã nguồn mở mới nhất từ công ty mẹ của Facebook, Instagram, WhatsApp và Quest VR.

Ông viết: “Llama 3.3 cải thiện hiệu năng cốt lõi với chi phí thấp hơn đáng kể, giúp cộng đồng mã nguồn mở dễ dàng tiếp cận hơn bao giờ hết.”

Với 70 tỷ tham số — các cài đặt điều chỉnh hành vi của mô hình — Llama 3.3 mang lại kết quả tương đương với mô hình 405 tỷ tham số của Llama 3.1 phát hành mùa hè vừa qua, nhưng với chi phí và yêu cầu tính toán thấp hơn nhiều, chẳng hạn như dung lượng GPU cần thiết để chạy mô hình trong quá trình suy luận.

Mô hình được thiết kế để cung cấp hiệu năng hàng đầu và tính tiếp cận cao trong một gói gọn gàng hơn so với các mô hình nền tảng trước đó.

Bản quyền và các điều khoản sử dụng

Llama 3.3 được cung cấp theo Thỏa thuận Cấp phép Cộng đồng Llama 3.3, cấp phép không độc quyền và miễn phí bản quyền cho việc sử dụng, sao chép, phân phối và sửa đổi mô hình cũng như các đầu ra của nó. Các nhà phát triển tích hợp Llama 3.3 vào sản phẩm hoặc dịch vụ phải ghi nhận thích hợp, chẳng hạn “Được xây dựng với Llama,” và tuân thủ Chính sách Sử dụng Chấp nhận được, cấm các hoạt động như tạo nội dung gây hại, vi phạm pháp luật hoặc hỗ trợ các cuộc tấn công mạng. Mặc dù giấy phép này thường miễn phí, các tổ chức có trên 700 triệu người dùng hoạt động hàng tháng phải mua giấy phép thương mại trực tiếp từ Meta.

Trong một tuyên bố, nhóm AI tại Meta nhấn mạnh tầm nhìn này: “Llama 3.3 mang lại hiệu năng và chất lượng hàng đầu cho các trường hợp sử dụng dựa trên văn bản với chi phí suy luận chỉ bằng một phần nhỏ.”

Tiết kiệm chi phí và tài nguyên GPU

Một số ước tính sơ bộ:
Llama 3.1-405B yêu cầu từ 243 GB đến 1944 GB bộ nhớ GPU, theo blog Substratus. Trong khi đó, Llama 2-70B cũ hơn yêu cầu từ 42-168 GB bộ nhớ GPU, theo cùng nguồn blog, và một số tuyên bố chỉ cần 4 GB, hoặc như Exo Labs đã chứng minh, chỉ cần vài máy Mac có chip M4 và không cần GPU rời.

Nếu tiết kiệm GPU từ các mô hình tham số thấp hơn tiếp tục được duy trì, người dùng muốn triển khai các mô hình Llama mã nguồn mở mạnh mẽ nhất của Meta có thể tiết kiệm gần 1940 GB bộ nhớ GPU, tương đương với tải GPU giảm 24 lần trên một GPU Nvidia H100 80 GB tiêu chuẩn.

Với giá ước tính 25.000 USD mỗi GPU H100, khoản tiết kiệm ban đầu có thể lên tới 600.000 USD, chưa kể chi phí năng lượng liên tục.

Mô hình nhỏ gọn nhưng hiệu năng cao

Theo Meta AI trên X, mô hình Llama 3.3 vượt trội so với Llama 3.1-70B có cùng kích thước và cả mô hình Nova Pro mới của Amazon trong nhiều tiêu chuẩn đánh giá, như đối thoại đa ngôn ngữ, lý luận và các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) nâng cao (mặc dù Nova vượt trội hơn trong nhiệm vụ mã hóa HumanEval).

Llama 3.3 được huấn luyện trên 15 nghìn tỷ token từ dữ liệu “công khai” và tinh chỉnh trên hơn 25 triệu ví dụ tổng hợp, theo thông tin trong “thẻ mô hình” Meta đăng tải trên trang web.

Dựa trên 39,3 triệu giờ GPU trên phần cứng H100-80GB, quá trình phát triển mô hình cho thấy cam kết của Meta với hiệu quả năng lượng và bền vững.

Llama 3.3 dẫn đầu trong các nhiệm vụ lý luận đa ngôn ngữ với độ chính xác 91,1% trên MGSM, thể hiện hiệu quả hỗ trợ các ngôn ngữ như tiếng Đức, Pháp, Ý, Hindi, Bồ Đào Nha, Tây Ban Nha, Thái Lan và tiếng Anh.

Tiết kiệm chi phí và thân thiện với môi trường

Llama 3.3 được tối ưu hóa đặc biệt cho suy luận chi phí thấp, với chi phí tạo token chỉ từ 0,01 USD mỗi triệu token.

Điều này làm cho mô hình rất cạnh tranh so với các đối thủ trong ngành như GPT-4 và Claude 3.5, với chi phí thấp hơn dành cho các nhà phát triển muốn triển khai các giải pháp AI tiên tiến.

Meta cũng nhấn mạnh trách nhiệm môi trường trong lần phát hành này. Dù quá trình huấn luyện đòi hỏi tài nguyên lớn, công ty đã sử dụng năng lượng tái tạo để bù đắp khí thải nhà kính, dẫn đến phát thải ròng bằng 0 trong giai đoạn huấn luyện. Lượng phát thải tại chỗ lên tới 11.390 tấn CO2 tương đương, nhưng các sáng kiến năng lượng tái tạo của Meta đảm bảo tính bền vững.

Các tính năng nâng cao và tùy chọn triển khai

Mô hình giới thiệu nhiều cải tiến, bao gồm cửa sổ ngữ cảnh dài hơn với 128.000 token (tương đương khoảng 400 trang sách), phù hợp cho việc tạo nội dung dài và các trường hợp sử dụng nâng cao khác.

Kiến trúc của mô hình tích hợp Grouped Query Attention (GQA), cải thiện khả năng mở rộng và hiệu năng trong quá trình suy luận.

Được thiết kế để phù hợp với sở thích người dùng về an toàn và tính hữu ích, Llama 3.3 sử dụng học tăng cường với phản hồi từ con người (RLHF) và tinh chỉnh giám sát (SFT). Các cải tiến này đảm bảo mô hình từ chối mạnh mẽ các yêu cầu không phù hợp và hành vi hỗ trợ giống như trợ lý, được tối ưu hóa cho các ứng dụng thực tế.

Llama 3.3 đã sẵn sàng để tải xuống qua Meta, Hugging Face, GitHub và các nền tảng khác, với các tùy chọn tích hợp cho các nhà nghiên cứu và nhà phát triển. Meta cũng cung cấp các tài nguyên như Llama Guard 3 và Prompt Guard để hỗ trợ người dùng triển khai mô hình một cách an toàn và có trách nhiệm.

Meta launches open source Llama 3.3, shrinking powerful bigger model into smaller size

 

Join our daily and weekly newsletters for the latest updates and exclusive content on industry-leading AI coverage. Learn More


Meta’s VP of generative AI, Ahmad Al-Dahle took to rival social network X today to announce the release of Llama 3.3, the latest open-source multilingual large language model (LLM) from the parent company of Facebook, Instagram, WhatsApp and Quest VR.

As he wrote: “Llama 3.3 improves core performance at a significantly lower cost, making it even more accessible to the entire open-source community.”

 
 

With 70 billion parameters — or settings governing the model’s behavior — Llama 3.3 delivers results on par with Meta’s 405B parameter model from the Llama 3.1 from the summer, but at a fraction of the cost and computational overhead — e.g., the GPU capacity needed to run the model in an inference.

It’s designed to offer top-tier performance and accessibility yet in a smaller package than prior foundation models.

Meta’s Llama 3.3 is offered under the Llama 3.3 Community License Agreement, which grants a non-exclusive, royalty-free license for use, reproduction, distribution, and modification of the model and its outputs. Developers integrating Llama 3.3 into products or services must include appropriate attribution, such as “Built with Llama,” and adhere to an Acceptable Use Policy that prohibits activities like generating harmful content, violating laws, or enabling cyberattacks. While the license is generally free, organizations with over 700 million monthly active users must obtain a commercial license directly from Meta.

A statement from the AI at Meta team underscores this vision: “Llama 3.3 delivers leading performance and quality across text-based use cases at a fraction of the inference cost.”

How much savings are we talkin’ about, really? Some back-of-the-envelope math:

Llama 3.1-405B requires between 243 GB and 1944 GB of GPU memory, according to the Substratus blog (for the open source cross cloud substrate). Meanwhile, the older Llama 2-70B requires between 42-168 GB of GPU memory, according to the same blog, though same have claimed as low as 4 GB, or as Exo Labs has shown, a few Mac computers with M4 chips and no discrete GPUs.

Therefore, if the GPU savings for lower-parameter models holds up in this case, those looking to deploy Meta’s most powerful open source Llama models can expect to save up to nearly 1940 GB worth of GPU memory, or potentially, 24 times reduced GPU load for a standard 80 GB Nvidia H100 GPU.

At an estimated $25,000 per H100 GPU, that’s up to $600,000 in up-front GPU cost savings, potentially — not to mention the continuous power costs.

A highly performant model in a small form factor

According to Meta AI on X, the Llama 3.3 model handedly outperforms the identically sized Llama 3.1-70B as well as Amazon’s new Nova Pro model in several benchmarks such as multilingual dialogue, reasoning, and other advanced natural language processing (NLP) tasks (Nova outperforms it in HumanEval coding tasks).

Llama 3.3 has been pretrained on 15 trillion tokens from “publicly available” data and fine-tuned on over 25 million synthetically generated examples, according to the information Meta provided in the “model card” posted on its website.

Leveraging 39.3 million GPU hours on H100-80GB hardware, the model’s development underscores Meta’s commitment to energy efficiency and sustainability.

Llama 3.3 leads in multilingual reasoning tasks with a 91.1% accuracy rate on MGSM, demonstrating its effectiveness in supporting languages such as German, French, Italian, Hindi, Portuguese, Spanish, and Thai, in addition to English.

Cost-effective and environmentally conscious

Llama 3.3 is specifically optimized for cost-effective inference, with token generation costs as low as $0.01 per million tokens.

This makes the model highly competitive against industry counterparts like GPT-4 and Claude 3.5, with greater affordability for developers seeking to deploy sophisticated AI solutions.

Meta has also emphasized the environmental responsibility of this release. Despite its intensive training process, the company leveraged renewable energy to offset greenhouse gas emissions, resulting in net-zero emissions for the training phase. Location-based emissions totaled 11,390 tons of CO2-equivalent, but Meta’s renewable energy initiatives ensured sustainability.

Advanced features and deployment options

The model introduces several enhancements, including a longer context window of 128k tokens (comparable to GPT-4o, about 400 pages of book text), making it suitable for long-form content generation and other advanced use cases.

Its architecture incorporates Grouped Query Attention (GQA), improving scalability and performance during inference.

Designed to align with user preferences for safety and helpfulness, Llama 3.3 uses reinforcement learning with human feedback (RLHF) and supervised fine-tuning (SFT). This alignment ensures robust refusals to inappropriate prompts and an assistant-like behavior optimized for real-world applications.

Llama 3.3 is already available for download through MetaHugging FaceGitHub, and other platforms, with integration options for researchers and developers. Meta is also offering resources like Llama Guard 3 and Prompt Guard to help users deploy the model safely and responsibly.

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo