- Một nghiên cứu mới cho rằng những bước nhảy vọt đột ngột trong khả năng của các mô hình ngôn ngữ lớn (LLM) không hề bất ngờ hay khó đoán, mà thực chất là hệ quả của cách chúng ta đo lường năng lực trong AI.
- Cách đây 2 năm, dự án Beyond the Imitation Game (BIG-bench) tổng hợp 204 tác vụ để kiểm tra khả năng của LLM. Ở hầu hết tác vụ, hiệu suất cải thiện đều đặn khi mô hình mở rộng. Nhưng với một số tác vụ, hiệu suất gần như bằng 0 một thời gian rồi đột ngột tăng vọt. Các tác giả gọi đây là hành vi "đột phá", một số nhà nghiên cứu ví như quá trình chuyển pha trong vật lý.
- Tuy nhiên, một bài báo mới của 3 nhà nghiên cứu Stanford cho rằng sự xuất hiện đột ngột của các khả năng này chỉ là hệ quả của cách các nhà nghiên cứu đo lường hiệu suất của LLM. Họ lập luận rằng các khả năng này không hề khó đoán hay đột ngột.
- Ví dụ, trong nghiên cứu BIG-bench 2022, các nhà nghiên cứu báo cáo rằng GPT-3 và LAMDA không thể hoàn thành chính xác các phép cộng khi có ít tham số. Nhưng khi GPT-3 được huấn luyện với 13 tỷ tham số, khả năng của nó thay đổi như thể bật công tắc. LAMDA cũng vậy ở mức 68 tỷ tham số. Điều này gợi ý rằng khả năng cộng xuất hiện ở một ngưỡng nhất định.
- Nhưng nhóm Stanford chỉ ra rằng các LLM chỉ được đánh giá dựa trên độ chính xác tuyệt đối. Vì vậy, họ kiểm tra lại tác vụ này bằng một thước đo cho điểm một phần, ví dụ xem mô hình dự đoán chính xác từng chữ số thứ nhất, thứ hai, thứ ba như thế nào. Kết quả cho thấy khi số tham số tăng lên, các LLM dự đoán ngày càng chính xác dãy số trong các phép cộng. Điều này cho thấy khả năng cộng không phải là khả năng nổi lên đột ngột mà là từ từ và có thể dự đoán được.
- Tuy nhiên, một số nhà khoa học chỉ ra rằng nghiên cứu này không hoàn toàn bác bỏ khái niệm nổi lên. Nó không giải thích làm thế nào để dự đoán khi nào và thước đo nào sẽ cho thấy sự cải thiện đột ngột ở LLM. Vì vậy, các khả năng này vẫn khó đoán.
📌 Nghiên cứu của Stanford đặt ra câu hỏi về bản chất của các khả năng "nổi lên" ở các mô hình ngôn ngữ lớn. Họ lập luận rằng sự xuất hiện đột ngột của các khả năng này có thể được giải thích bằng cách thay đổi thước đo, ví dụ cho điểm một phần thay vì chỉ đánh giá độ chính xác tuyệt đối. Tuy nhiên, một số chuyên gia cho rằng nghiên cứu chưa hoàn toàn bác bỏ khái niệm nổi lên và vẫn cần tiếp tục nghiên cứu để dự đoán hành vi của các mô hình thế hệ tiếp theo.
Citations:
[1] https://www.wired.com/story/how-quickly-do-large-language-models-learn-unexpected-skills/