• Homebrew Research giới thiệu Llama3-s v0.2, một mô hình ngôn ngữ đa phương thức mới nhằm cải thiện khả năng hiểu tiếng nói trong xử lý ngôn ngữ tự nhiên.
• Mô hình này dựa trên nền tảng của Llama 3.1, tích hợp bộ mã hóa âm thanh được đào tạo trước (như WhisperVQ) để chuyển đổi âm thanh nói thành biểu diễn số mà mô hình ngôn ngữ có thể xử lý.
• Llama3-s v0.2 sử dụng phương pháp đào tạo đa phương thức, kết hợp đầu vào văn bản và âm thanh, giúp mô hình học hiệu quả mối quan hệ giữa ngôn ngữ nói và biểu diễn văn bản của nó.
• Mô hình áp dụng các token ngữ nghĩa, là biểu diễn trừu tượng của ý nghĩa từ, để cải thiện khả năng hiểu nội dung cơ bản của lời nói.
• Quá trình đào tạo gồm hai giai đoạn: (1) Đào tạo trước trên dữ liệu tiếng nói thực từ bộ dữ liệu MLS-10k, gồm 10 giờ tiếng nói đa ngôn ngữ không nhãn; (2) Điều chỉnh hướng dẫn với dữ liệu tổng hợp, sử dụng WhisperVQ để mã hóa ngữ nghĩa dữ liệu tiếng nói.
• Llama3-s v0.2 cho kết quả vượt trội so với các mô hình hiện có trên nhiều tiêu chuẩn đánh giá, bao gồm ALPACA-Audio và AudioBench.
• Trên đánh giá ALPACA-Audio, Llama3-s v0.2 đạt điểm trung bình 3,53, vượt qua SALMONN, Qwen-Audio và WavLLM.
• Mô hình vẫn còn một số hạn chế như nhạy cảm với tiếng ồn nền và khó khăn với đầu vào âm thanh kéo dài.
• Llama3-s v0.2 mở ra khả năng ứng dụng mới trong thế giới thực, giúp công nghệ trở nên dễ tiếp cận và thân thiện với người dùng hơn.
• Việc tích hợp đầu vào âm thanh và văn bản cùng với tokenization ngữ nghĩa nâng cao giúp mô hình vượt qua những hạn chế của các mô hình ngôn ngữ truyền thống trong việc hiểu tiếng nói.
📌 Llama3-s v0.2 là bước tiến quan trọng trong phát triển mô hình ngôn ngữ đa phương thức hiểu tiếng nói. Với điểm trung bình 3,53 trên ALPACA-Audio, vượt trội so với các mô hình khác, nó mở ra triển vọng ứng dụng rộng rãi trong tương tác người-máy tự nhiên hơn.
https://www.marktechpost.com/2024/08/24/llama3-just-got-ears-llama3-s-v0-2-a-new-multimodal-checkpoint-with-improved-speech-understanding/