- Giáo sư Fei-Fei Li, đồng giám đốc Stanford HAI và CEO World Labs, khẳng định thị giác đóng vai trò quan trọng trong việc con người nhận thức thế giới
- Lịch sử tiến hóa cho thấy khả năng nhìn xuất hiện cách đây khoảng 540 triệu năm, dẫn đến sự bùng nổ Cambrian và sự xuất hiện của hầu hết các loài động vật hiện đại
- Hiện nay, AI đang trải qua một cuộc cách mạng tương tự với sự phát triển của các mô hình ngôn ngữ lớn như ChatGPT
- Năm 2007, phòng thí nghiệm của Fei-Fei Li đã tạo ra ImageNet - cơ sở dữ liệu gồm 15 triệu hình ảnh được gắn nhãn trong 22.000 danh mục đối tượng
- Các hệ thống nhận dạng hình ảnh dựa trên ImageNet đã thúc đẩy làn sóng AI hiện đại
- AI hiện đại không chỉ nhận dạng mà còn có thể tạo ra hình ảnh và video theo yêu cầu văn bản
- Để máy tính có trí thông minh không gian như con người, các nhà khoa học cần phát triển từ mô hình ngôn ngữ lớn sang mô hình thế giới lớn
- Các ứng dụng tiềm năng bao gồm:
+ Robot chăm sóc người già
+ Hỗ trợ phẫu thuật viên
+ Mô phỏng và đào tạo
+ Chuyển đổi hình ảnh 2D thành không gian 3D
- Quá trình phát triển trí thông minh không gian ở máy tính chỉ mất vài thập kỷ, so với hàng trăm triệu năm tiến hóa ở con người
📌 Fei-Fei Li định hướng tương lai AI tập trung vào phát triển trí thông minh không gian thay vì chỉ dừng lại ở mô hình ngôn ngữ. ImageNet với 15 triệu hình ảnh đã mở đường cho cuộc cách mạng AI thị giác, hướng tới mục tiêu xây dựng các mô hình thế giới phục vụ con người.
https://www.economist.com/the-world-ahead/2024/11/20/fei-fei-li-says-understanding-how-the-world-works-is-the-next-step-for-ai