Orion-14B: Mô hình ngôn ngữ lớn đa ngôn ngữ nguồn mở mới được đào tạo trên Token 2,5T bao gồm tiếng Trung, tiếng Anh, tiếng Nhật và tiếng Hàn

  • Orion-14B là mô hình ngôn ngữ lớn đa ngôn ngữ nguồn mở mới được huấn luyện trên 2.5 nghìn tỷ tokens, bao gồm tiếng Trung, Anh, Nhật và Hàn.
  • Mô hình cơ sở của Orion-14B có 14 tỷ tham số và dữ liệu huấn luyện khổng lồ 2.5 ngàn tỷ tokens, với chiều dài ngữ cảnh lên đến 200.000 tokens.
  • Orion-14B bao gồm nhiều mô hình với đặc điểm và ứng dụng riêng biệt. Mô hình Orion-14B-Chat-RAG được tinh chỉnh trên tập dữ liệu tăng cường truy xuất, còn Orion-14B-Chat-Plugin được thiết kế cho các tình huống liên quan đến agent.
  • Phiên bản long-chat của Orion-14B có khả năng xử lý văn bản dài lên đến 320.000 tokens. Phiên bản quantized của Orion-14B giảm kích thước mô hình 70%, tăng tốc độ suy luận lên 30% và chỉ giảm hiệu suất dưới 1%.
  • Dữ liệu huấn luyện bao gồm văn bản đa ngôn ngữ, tập trung chủ yếu vào tiếng Anh và tiếng Trung, chiếm 90% toàn bộ dữ liệu. Nội dung tiếng Nhật và tiếng Hàn chiếm hơn 5%.
  • Mặc dù đối mặt với nhiều thách thức, nhóm nghiên cứu đã phát triển Orion-14B thành công, với hiệu suất vượt trội so với các mô hình nguồn mở khác.

📌 Orion-14B đánh dấu một cột mốc quan trọng trong lĩnh vực nghiên cứu AI, đặc biệt là trong việc xây dựng mô hình ngôn ngữ đa ngôn ngữ với khả năng xử lý dữ liệu đa dạng. Sự kết hợp của dữ liệu huấn luyện khổng lồ 2,5 ngàn tỷ tokens và chiều dài ngữ cảnh 200.000 tokens cùng các phiên bản tối ưu hóa cho các tác vụ cụ thể như Chat RAG và Chat Plugin, cùng với phiên bản long-chat và quantized cho thấy Orion-14B không chỉ mạnh mẽ về quy mô mà còn linh hoạt và hiệu quả. Với việc chiếm ưu thế trong các bài kiểm tra tiếng Nhật và tiếng Hàn, mô hình này mở ra hướng tiếp cận mới cho NLP đa ngôn ngữ và có tiềm năng ứng dụng rộng rãi trong ngành công nghiệp AI.

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo