Yann LeCun của Meta cảnh báo: AI hiện tại chưa có 4 năng lực then chốt của con người

  • Tại Hội nghị AI Action ở Paris, Yann LeCun – nhà khoa học trưởng về AI của Meta – khẳng định các mô hình AI hiện nay, đặc biệt là LLM, chưa đạt đến cấp độ trí tuệ thực sự vì thiếu 4 yếu tố thiết yếu mà con người hoặc động vật thông minh đều có:

    1. Hiểu thế giới vật lý

    2. Trí nhớ bền vững

    3. Khả năng suy luận

    4. Khả năng lập kế hoạch (đặc biệt là lập kế hoạch phân cấp)

  • Ông cho rằng việc bổ sung những khả năng này hiện nay chỉ là “những mánh vá” (hacks), chẳng hạn:

    • Gắn hệ thống thị giác riêng vào LLM để hiểu thế giới vật lý

    • Dùng retrieval augmented generation (RAG) để tăng cường trí nhớ bằng dữ liệu truy xuất bên ngoài

    • Tăng kích thước mô hình hoặc thêm trí nhớ liên kết

  • LeCun đề xuất thay đổi cách huấn luyện AI thông qua mô hình "world-based models" – dựa trên trạng thái thế giới thực tại thời điểm T, dự đoán hành động và kết quả của thế giới sau hành động đó. Đây là cách tiếp cận mang tính trừu tượng hơn, phản ánh cách con người hiểu thế giới.

  • Meta đang thử nghiệm hướng này qua V-JEPAmô hình phi tạo sinh (non-generative) ra mắt tháng 2/2025. Mô hình này học bằng cách dự đoán phần bị che trong video, nhưng không phải ở mức pixel mà ở mức biểu diễn trừu tượng.

  • Ý tưởng là thay vì xử lý mọi chi tiết, mô hình học các tầng trừu tượng giống như trong khoa học: hạt → nguyên tử → phân tử → vật liệu. Mỗi tầng loại bỏ thông tin không cần thiết từ tầng dưới.

📌 Yann LeCun cho rằng AI hiện nay còn thiếu 4 khả năng cốt lõi: hiểu vật lý, trí nhớ dài hạn, suy luận và lập kế hoạch. Meta phát triển mô hình V-JEPA để khắc phục bằng cách học từ video qua biểu diễn trừu tượng, thay vì dự đoán chi tiết. Hướng đi này đặt nền móng cho mô hình “có nhận thức thế giới” thay vì chỉ dựa vào mẫu thống kê như hiện nay.

https://www.businessinsider.com/meta-yann-lecun-ai-models-lack-4-key-human-traits-2025-5

 

Nhà khoa học AI trưởng của Meta Yann LeCun nói các mô hình AI hiện tại thiếu 4 đặc điểm quan trọng của con người

Tác giả: Lakshmi Varanasi
Nhà khoa học AI trưởng của Meta, Yann LeCun, cho biết AI thiếu các đặc điểm quan trọng của con người, đòi hỏi thay đổi cách thức huấn luyện. Meta Platforms
25 tháng 5, 2025, 10:34 PM UTC

  • Yann LeCun cho rằng có 4 đặc điểm của trí thông minh con người.
  • Nhà khoa học AI trưởng của Meta nói AI thiếu những đặc điểm này, đòi hỏi thay đổi phương pháp huấn luyện.
  • V-JEPA của Meta là mô hình AI không tạo sinh nhằm giải quyết vấn đề này.

Tất cả sinh vật thông minh có điểm chung gì? 4 điều, theo nhà khoa học AI trưởng của Meta, Yann LeCun.

Tại Hội nghị thượng đỉnh AI Action ở Paris đầu năm nay, các nhà lãnh đạo chính trị và chuyên gia AI đã tập trung để thảo luận về phát triển AI. LeCun đã chia sẻ định nghĩa cơ bản về trí thông minh với nhà lãnh đạo AI của IBM, Anthony Annunziata.

"Có 4 đặc điểm thiết yếu của hành vi thông minh mà mọi động vật, hoặc động vật tương đối thông minh, đều có thể làm được, và chắc chắn là con người," ông nói. "Hiểu thế giới vật lý, có trí nhớ bền vững, có khả năng suy luận, và có khả năng lập kế hoạch, đặc biệt là lập kế hoạch theo cấu trúc phân cấp."

LeCun cho biết AI, đặc biệt là các mô hình ngôn ngữ lớn, chưa đạt được ngưỡng này, và việc tích hợp những khả năng này sẽ đòi hỏi thay đổi cách thức huấn luyện. Đó là lý do tại sao nhiều công ty công nghệ lớn nhất đang ghép nối các khả năng vào các mô hình hiện có trong cuộc đua thống trị thị trường AI, ông nói.

"Để hiểu thế giới vật lý, bạn huấn luyện một hệ thống thị giác riêng biệt. Sau đó bạn gắn thêm vào LLM. Đối với trí nhớ, bạn sử dụng RAG, hoặc gắn thêm bộ nhớ liên kết lên trên, hoặc đơn giản là làm cho mô hình lớn hơn," ông nói. RAG, viết tắt của retrieval augmented generation, là cách để tăng cường đầu ra của các mô hình ngôn ngữ lớn bằng cách sử dụng các nguồn kiến thức bên ngoài. Phương pháp này được phát triển tại Meta.

Tuy nhiên, tất cả những điều đó chỉ là "các thủ thuật tạm thời," LeCun cho biết.

LeCun đã nhiều lần nói về một giải pháp thay thế mà ông gọi là các mô hình dựa trên thế giới. Đây là những mô hình được huấn luyện trên các tình huống thực tế và có mức độ nhận thức cao hơn AI dựa trên mẫu. LeCun, trong cuộc trò chuyện với Annunziata, đã đưa ra một định nghĩa khác.

"Bạn có ý tưởng về trạng thái của thế giới tại thời điểm T, bạn tưởng tượng một hành động có thể thực hiện, mô hình thế giới dự đoán trạng thái của thế giới sẽ như thế nào từ hành động bạn đã thực hiện," ông nói.

Nhưng, ông cho biết, thế giới phát triển theo một tập hợp vô hạn và không thể dự đoán các khả năng, và cách duy nhất để huấn luyện cho chúng là thông qua trừu tượng hóa.

Meta đang thử nghiệm điều này thông qua V-JEPA, một mô hình công ty phát hành công khai vào tháng 2. Meta mô tả đây là mô hình không tạo sinh học bằng cách dự đoán các phần bị thiếu hoặc che dấu trong video.

"Ý tưởng cơ bản là bạn không dự đoán ở mức pixel. Bạn huấn luyện một hệ thống để chạy biểu diễn trừu tượng của video để bạn có thể đưa ra dự đoán trong biểu diễn trừu tượng đó, và hy vọng biểu diễn này sẽ loại bỏ tất cả các chi tiết không thể dự đoán được," ông nói.

Khái niệm này tương tự như cách các nhà hóa học thiết lập hệ thống phân cấp cơ bản cho các khối xây dựng của vật chất.

"Chúng ta tạo ra các khái niệm trừu tượng. Hạt, trên đó là nguyên tử, trên đó là phân tử, trên đó là vật liệu," ông nói. "Mỗi khi chúng ta lên một tầng, chúng ta loại bỏ rất nhiều thông tin về các tầng bên dưới không liên quan đến loại nhiệm vụ chúng ta quan tâm thực hiện."

Điều đó, về bản chất, là một cách khác để nói rằng chúng ta đã học cách hiểu thế giới vật lý bằng cách tạo ra các hệ thống phân cấp.

Meta chief AI scientist Yann LeCun says current AI models lack 4 key human traits

By Lakshmi Varanasi May 25, 2025, 10:34 PM UTC
 
  • Yann LeCun says there are four traits of human intelligence.
  • Meta's chief AI scientist says AI lacks these traits, requiring a shift in training methods.
  • Meta's V-JEPA is a non-generative AI model that aims to solve the problem.
What do all intelligent beings have in common? Four things, according to Meta's chief AI scientist, Yann LeCun.
At the AI Action Summit in Paris earlier this year, political leaders and AI experts gathered to discuss AI development. LeCun shared his baseline definition of intelligence with IBM's AI leader, Anthony Annunziata.
"There's four essential characteristics of intelligent behavior that every animal, or relatively smart animal, can do, and certainly humans," he said. "Understanding the physical world, having persistent memory, being able to reason, and being able to plan, and planning complex actions, particularly planning hierarchically."
LeCun said AI, especially large language models, have not hit this threshold, and incorporating these capabilities would require a shift in how they are trained. That's why many of the biggest tech companies are cobbling capabilities onto existing models in their race to dominate the AI game, he said.
"For understanding the physical world, well, you train a separate vision system. And then you bolt it on the LLM. For memory, you know, you use RAG, or you bolt some associative memory on top of it, or you just make your model bigger," he said. RAG, which stands for retrieval augmented generation, is a way to enhance the outputs of large language models using external knowledge sources. It was developed at Meta.
All those, however, are just "hacks," LeCun said.
LeCun has spoken on several occasions about an alternative he calls world-based models. These are models trained on real-life scenarios and have higher levels of cognition than pattern-based AI. LeCun, in his chat with Annunziata, offered another definition.
"You have some idea of the state of the world at time T, you imagine an action it might take, the world model predicts what the state of the world is going to be from the action you took," he said.
But, he said, the world evolves according to an infinite and unpredictable set of possibilities, and the only way to train for them is through abstraction.
Meta is already experimenting with this through V-JEPA, a model it released to the public in February. Meta describes it as a non-generative model that learns by predicting missing or masked parts of a video.
"The basic idea is that you don't predict at the pixel level. You train a system to run an abstract representation of the video so that you can make predictions in that abstract representation, and hopefully this representation will eliminate all the details that cannot be predicted," he said.
The concept is similar to how chemists established a fundamental hierarchy for the building blocks of matter.
"We created abstractions. Particles, on top of this, atoms, on top of this, molecules, on top of this, materials," he said. "Every time we go up one layer, we eliminate a lot of information about the layers below that are irrelevant for the type of task we're interested in doing."
That, in essence, is another way of saying we've learned to make sense of the physical world by creating hierarchies.

Không có file đính kèm.

14

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo