• AI đa phương thức là làn sóng quan trọng tiếp theo của ngành công nghệ AI, vượt xa các mô hình ngôn ngữ lớn (LLM) bằng cách kết hợp văn bản, hình ảnh, âm thanh và video thành các mô hình AI thống nhất
• Meta đã ra mắt MovieGen có khả năng tạo phim ngắn từ văn bản, trong khi OpenAI phát triển chế độ giọng nói cho phép trò chuyện thời gian thực
• Để phát triển AI đa phương thức cần bộ dữ liệu đa dạng và phong phú hơn như podcast, video YouTube và dữ liệu từ thiết bị đeo như Apple Watch, thay vì chỉ dùng Wikipedia và sách như trước đây
• Thách thức lớn nhất là đảm bảo chất lượng dữ liệu khi tích hợp nhiều loại dữ liệu khác nhau, tránh nhãn dán video kém chất lượng và âm thanh nhiễu có thể làm sai lệch khả năng nhận dạng của mô hình
• Trong lĩnh vực y tế, việc kết hợp dữ liệu hình ảnh X-quang với giọng nói của bệnh nhân có thể giúp chẩn đoán sớm và chính xác hơn các bệnh như Alzheimer
• Ngành công nghiệp sáng tạo sẽ được hưởng lợi khi AI đa phương thức có thể tạo nhạc và hiệu ứng hình ảnh từ mô tả văn bản, hoặc tạo cảnh quay b-roll theo yêu cầu của nhà sản xuất phim
• Trợ lý ảo trong tương lai sẽ không chỉ nhận diện và phản hồi lệnh nói mà còn có thể đoán được trạng thái cảm xúc dựa trên giọng nói và biểu cảm khuôn mặt
📌 AI đa phương thức đánh dấu bước ngoặt quan trọng trong việc phát triển trí tuệ nhân tạo toàn diện, vượt xa khả năng xử lý văn bản của các mô hình ngôn ngữ lớn. Các công ty cần chuẩn bị hạ tầng dữ liệu phù hợp để tận dụng tiềm năng này trong các lĩnh vực từ y tế đến giải trí.
https://www.forbes.com/councils/forbestechcouncil/2024/12/30/beyond-large-language-models-how-multimodal-ai-is-unlocking-human-like-intelligence/