• Vào ngày 12/4/2024, phòng thí nghiệm nghiên cứu x.AI của Elon Musk đã phát hành Grok-1.5 Vision (Grok-1.5V), một mô hình đa phương thức mới kết hợp xử lý văn bản với khả năng hiểu dữ liệu hình ảnh.
• Grok-1.5V đánh dấu một bước tiến đáng kể trong lĩnh vực trí tuệ nhân tạo (AI).
• Grok là một chatbot AI có thể trả lời hầu hết mọi câu hỏi và đề xuất những câu hỏi cần hỏi. Nó có tính cách hài hước và kiến thức thế giới thực tế thông qua nền tảng 𝕏.
• Grok-1.5V nổi bật trong lĩnh vực suy luận đa lĩnh vực, hiểu không gian thế giới thực và bài đánh giá RealWorldQA.
• Grok-1.5V vượt trội so với các chatbot khác trong việc hiểu các tình huống thế giới thực mà không cần nhắc nhở chi tiết.
• Khả năng ấn tượng của Grok-1.5V bao gồm:
- Tạo ra mã hoạt động từ sơ đồ vẽ tay.
- Giải quyết các vấn đề lập trình.
- Tính nhãn dinh dưỡng từ ảnh.
- Đưa ra lời khuyên về bảo trì nhà cửa.
- Chuẩn bị câu chuyện đêm từ bức vẽ của trẻ em.
- Chuyển đổi bảng thành định dạng CSV dễ dàng.
- Khả năng giải thích meme một cách xuất sắc.
• Grok-1.5V có thể rút ngắn khoảng cách giữa thế giới ảo và thực, đây là một thành tựu đáng kể.
• Bài đánh giá RealWorldQA kiểm tra khả năng hiểu không gian của các mô hình đa phương thức, nhấn mạnh nhu cầu cải thiện khả năng hiểu môi trường vật lý của AI.
• Mặc dù các tác vụ có vẻ đơn giản với con người, nhưng chúng lại rất khó khăn đối với các công cụ AI hàng đầu, khiến thành tích của Grok-1.5V trở nên đáng chú ý.
📌 Grok-1.5 Vision (Grok-1.5V) đánh dấu khởi đầu của một kỷ nguyên mới trong AI đa phương thức, nơi các mô hình có khả năng hiểu dữ liệu hình ảnh và vật lý. Đổi mới này dẫn đường cho các ứng dụng AI tinh vi và thực tế hơn, đưa chúng ta đến gần hơn với các hệ thống thực sự thông minh và thích ứng.
Citations:
[1] https://www.aitoolsclub.com/grok-by-elon-musk-can-turn-diagrams-into-working-code/