AI models 2024-03-25 07:35:23

Nghiên cứu mới cho rằng các khả năng "nổi lên" đột ngột của mô hình ngôn ngữ lớn (LLM), không hề bất ngờ hay khó đoán.

- Một nghiên cứu mới cho rằng những bước nhảy vọt đột ngột trong khả năng của các mô hình ngôn ngữ lớn (LLM) không hề bất ngờ hay khó đoán, mà thực chất là hệ quả của cách chúng ta đo lường năng lực trong AI.

- Cách đây 2 năm, dự án Beyond the Imitation Game (BIG-bench) tổng hợp 204 tác vụ để kiểm tra khả năng của LLM. Ở hầu hết tác vụ, hiệu suất cải thiện đều đặn khi mô hình mở rộng. Nhưng với một số tác vụ, hiệu suất gần như bằng 0 một thời gian rồi đột ngột tăng vọt. Các tác giả gọi đây là hành vi "đột phá", một số nhà nghiên cứu ví như quá trình chuyển pha trong vật lý.

- Tuy nhiên, một bài báo mới của 3 nhà nghiên cứu Stanford cho rằng sự xuất hiện đột ngột của các khả năng này chỉ là hệ quả của cách các nhà nghiên cứu đo lường hiệu suất của LLM. Họ lập luận rằng các khả năng này không hề khó đoán hay đột ngột.

- Ví dụ, trong nghiên cứu BIG-bench 2022, các nhà nghiên cứu báo cáo rằng GPT-3 và LAMDA không thể hoàn thành chính xác các phép cộng khi có ít tham số. Nhưng khi GPT-3 được huấn luyện với 13 tỷ tham số, khả năng của nó thay đổi như thể bật công tắc. LAMDA cũng vậy ở mức 68 tỷ tham số. Điều này gợi ý rằng khả năng cộng xuất hiện ở một ngưỡng nhất định.

- Nhưng nhóm Stanford chỉ ra rằng các LLM chỉ được đánh giá dựa trên độ chính xác tuyệt đối. Vì vậy, họ kiểm tra lại tác vụ này bằng một thước đo cho điểm một phần, ví dụ xem mô hình dự đoán chính xác từng chữ số thứ nhất, thứ hai, thứ ba như thế nào. Kết quả cho thấy khi số tham số tăng lên, các LLM dự đoán ngày càng chính xác dãy số trong các phép cộng. Điều này cho thấy khả năng cộng không phải là khả năng nổi lên đột ngột mà là từ từ và có thể dự đoán được.

- Tuy nhiên, một số nhà khoa học chỉ ra rằng nghiên cứu này không hoàn toàn bác bỏ khái niệm nổi lên. Nó không giải thích làm thế nào để dự đoán khi nào và thước đo nào sẽ cho thấy sự cải thiện đột ngột ở LLM. Vì vậy, các khả năng này vẫn khó đoán.

📌 Nghiên cứu của Stanford đặt ra câu hỏi về bản chất của các khả năng "nổi lên" ở các mô hình ngôn ngữ lớn. Họ lập luận rằng sự xuất hiện đột ngột của các khả năng này có thể được giải thích bằng cách thay đổi thước đo, ví dụ cho điểm một phần thay vì chỉ đánh giá độ chính xác tuyệt đối. Tuy nhiên, một số chuyên gia cho rằng nghiên cứu chưa hoàn toàn bác bỏ khái niệm nổi lên và vẫn cần tiếp tục nghiên cứu để dự đoán hành vi của các mô hình thế hệ tiếp theo.

Citations:
[1] https://www.wired.com/story/how-quickly-do-large-language-models-learn-unexpected-skills/

Không có file đính kèm.

Nguồn tham khảo

144

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

Nghiên cứu mới cho rằng các khả năng "nổi lên" đột ngột của mô hình ngôn ngữ lớn (LLM), không hề bất ngờ hay khó đoán.

Thảo luận

Follow Us

Tin phổ biến

TAG