aiOla tung mô hình nhận dạng giọng nói siêu nhanh, đánh bại OpenAI Whisper

• Công ty khởi nghiệp AI aiOla của Israel vừa ra mắt mô hình nhận dạng giọng nói nguồn mở mới có tên Whisper-Medusa, nhanh hơn 50% so với Whisper của OpenAI.

Whisper-Medusa được xây dựng dựa trên Whisper nhưng sử dụng kiến trúc "multi-head attention" mới, cho phép dự đoán nhiều token hơn cùng một lúc.

• Mã nguồn và trọng số của mô hình đã được phát hành trên Hugging Face dưới giấy phép MIT, cho phép sử dụng cho nghiên cứu và thương mại.

• Whisper-Medusa có thể dự đoán 10 token mỗi lần thay vì 1 token như Whisper, giúp tăng 50% tốc độ dự đoán và thời gian chạy.

• Mô hình mới vẫn duy trì độ chính xác tương đương với Whisper gốc.

• aiOla sử dụng phương pháp học yếu (weak supervision) để huấn luyện Whisper-Medusa, đóng băng các thành phần chính của Whisper và sử dụng bản ghi âm do mô hình tạo ra làm nhãn để huấn luyện các module dự đoán token bổ sung.

• Công ty đang phát triển phiên bản 20-head có thể dự đoán 20 token cùng lúc, hứa hẹn tốc độ nhận dạng và phiên âm nhanh hơn nữa mà không mất độ chính xác.

• Cải thiện tốc độ nhận dạng và phiên âm sẽ cho phép xử lý nhanh hơn trong các ứng dụng giọng nói và mở đường cho phản hồi thời gian thực.

• Công nghệ này có thể thúc đẩy năng suất, giảm chi phí vận hành và cung cấp nội dung nhanh chóng hơn cho các cá nhân và doanh nghiệp.

Whisper hiện là tiêu chuẩn vàng trong nhận dạng giọng nói, với hơn 5 triệu lượt tải xuống mỗi tháng và được sử dụng trong hàng chục nghìn ứng dụng.

• Nhận dạng giọng nói nâng cao vẫn rất quan trọng trong thời đại các mô hình nền tảng, thúc đẩy các chức năng chính trong các lĩnh vực như chăm sóc sức khỏe và fintech.

• Công nghệ này cũng đang hỗ trợ các hệ thống AI đa phương thức có khả năng cao, như OpenAI đã kết hợp Whisper với LLM để xử lý truy vấn bằng giọng nói và cung cấp câu trả lời.

📌 aiOla ra mắt mô hình nhận dạng giọng nói Whisper-Medusa nhanh hơn 50% so với OpenAI Whisper, dự đoán 10 token mỗi lần thay vì 1. Mô hình nguồn mở này duy trì độ chính xác cao và hứa hẹn thúc đẩy ứng dụng giọng nói thời gian thực trong nhiều lĩnh vực.

https://venturebeat.com/ai/aiola-drops-ultra-fast-multi-head-speech-recognition-model-beats-openai-whisper/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo