AI thị giác có thể không thực sự "nhìn thấy" như chúng ta tưởng

• Các mô hình ngôn ngữ mới nhất như GPT-4 và Gemini 1.5 Pro được quảng cáo là "đa phương thức", có khả năng hiểu hình ảnh và âm thanh cũng như văn bản. Tuy nhiên, một nghiên cứu mới cho thấy chúng có thể không thực sự "nhìn thấy" như chúng ta nghĩ.

• Nghiên cứu được thực hiện bởi các nhà khoa học từ Đại học Auburn và Đại học Alberta, kiểm tra các mô hình AI đa phương thức lớn nhất trên một loạt các tác vụ thị giác đơn giản.

• Các tác vụ bao gồm xác định xem hai hình có chồng lên nhau không, đếm số hình ngũ giác trong một hình ảnh, hoặc xác định chữ cái nào trong một từ được khoanh tròn.

• Kết quả cho thấy các mô hình AI gặp khó khăn đáng kể với những tác vụ mà ngay cả học sinh lớp 1 cũng có thể thực hiện chính xác 100%.

• Trong bài kiểm tra hình tròn chồng lên nhau, GPT-4 chỉ đạt độ chính xác 18% khi các hình tròn gần nhau hoặc chạm nhau. Gemini Pro 1.5 thực hiện tốt nhất nhưng vẫn chỉ đạt 7/10 ở khoảng cách gần.

• Khi đếm số vòng tròn đan xen, các mô hình đạt 100% chính xác với 5 vòng, nhưng thêm 1 vòng làm kết quả giảm mạnh. Gemini không thể đưa ra câu trả lời đúng, Sonnet-3.5 chỉ đúng 1/3 số lần, GPT-4 đúng dưới 50% số lần.

• Các nhà nghiên cứu cho rằng điều này cho thấy các mô hình không thực sự "nhìn thấy" theo cách chúng ta hiểu. Thay vào đó, chúng có thể đang so khớp mẫu trong dữ liệu đầu vào với mẫu trong dữ liệu huấn luyện.

• Một lý do có thể là các mô hình nhận dạng tốt hình ảnh 5 vòng tròn vì nó giống logo Olympic - một hình ảnh phổ biến trong dữ liệu huấn luyện. Nhưng chúng gặp khó khăn với 6 hoặc 7 vòng vì những hình ảnh này hiếm gặp hơn.

• Các nhà nghiên cứu cho rằng thông tin thị giác mà các mô hình trích xuất từ hình ảnh có thể chỉ là gần đúng và trừu tượng, như "có một vòng tròn ở bên trái". Chúng không có khả năng đưa ra phán đoán thị giác thực sự.

• Điều này không có nghĩa là các mô hình AI "thị giác" là vô dụng. Chúng vẫn có thể chính xác cao trong việc nhận dạng hành động và biểu cảm của con người, đồ vật và tình huống hàng ngày - những thứ chúng được thiết kế để diễn giải.

• Tuy nhiên, nghiên cứu này cho thấy cần thận trọng khi đánh giá khả năng "nhìn thấy" thực sự của các mô hình AI, bất kể chúng có thể chính xác đến đâu trong một số tác vụ cụ thể.

📌 Nghiên cứu mới cho thấy các mô hình AI "thị giác" gặp khó khăn với các tác vụ thị giác đơn giản nhất. Chúng có thể không thực sự "nhìn thấy" như con người, mà chỉ so khớp mẫu dữ liệu. Điều này đặt ra câu hỏi về bản chất của "thị giác" trong AI và cách chúng ta đánh giá khả năng này.

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo