• Meta vừa công bố NotebookLlama - phiên bản nguồn mở của tính năng tạo podcast tự động trong NotebookLM của Google
• NotebookLlama sử dụng mô hình Llama của Meta để thực hiện phần lớn quá trình xử lý
• Quy trình hoạt động của NotebookLlama:
- Đầu tiên tạo bản ghi từ file đầu vào (PDF tin tức hoặc bài blog)
- Thêm các yếu tố kịch tính và ngắt quãng
- Chuyển bản ghi thành giọng nói qua các mô hình text-to-speech nguồn mở
• Chất lượng âm thanh của NotebookLlama còn hạn chế so với NotebookLM:
- Giọng nói có âm sắc máy móc rõ rệt
- Các giọng thường chồng lấn nhau ở những điểm không phù hợp
• Nhóm nghiên cứu của Meta cho biết chất lượng có thể cải thiện với mô hình mạnh hơn:
- Mô hình text-to-speech hiện là điểm giới hạn về độ tự nhiên
- Đề xuất cách tiếp cận mới: sử dụng 2 agent tranh luận để viết dàn ý podcast thay vì một mô hình đơn lẻ
• NotebookLlama không phải nỗ lực đầu tiên nhằm sao chép tính năng podcast của NotebookLM, một số dự án khác đã thành công hơn
• Tuy nhiên, tất cả các hệ thống AI tạo podcast hiện nay đều chưa giải quyết được vấn đề ảo giác (hallucination) - tạo ra thông tin không có thật
📌 Meta tạo bước đột phá với NotebookLlama - công cụ tạo podcast AI nguồn mở dựa trên mô hình Llama, dù chất lượng âm thanh còn hạn chế nhưng mở ra tiềm năng cải tiến với mô hình mạnh hơn. Vấn đề ảo giác vẫn là thách thức chung cho mọi hệ thống AI tạo podcast.
https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/