Cách ChatGPT hoạt động, lấy kiến thức từ đâu, và tại sao nó nghe có vẻ thông minh đến mức đáng kinh ngạc

 

  • ChatGPT là một mô hình ngôn ngữ lớn (LLM) do OpenAI phát triển, được huấn luyện để dự đoán từ tiếp theo trong câu dựa trên dữ liệu đầu vào.

  • Cách hoạt động giống như một tính năng tự động hoàn thành siêu cấp, chứ không phải suy nghĩ như con người. Nó dựa vào thống kê ngôn ngữ chứ không hiểu nghĩa thật sự.

  • ChatGPT được huấn luyện trên khối lượng dữ liệu khổng lồ gồm sách, bài báo, mã nguồn, trang web, Reddit công khai, Wikipedia, tài liệu nguồn mở và nhiều nguồn khác.

  • Dữ liệu huấn luyện của ChatGPT không được cập nhật liên tục. Ví dụ: GPT-4o được huấn luyện đến tháng 6.2024 nên không biết các sự kiện sau đó.

  • Một số phiên bản có khả năng truy cập Internet theo thời gian thực, nhưng điều này còn tùy vào mô hình đang sử dụng.

  • ChatGPT không được huấn luyện từ email cá nhân, tài liệu riêng tư hay cơ sở dữ liệu bí mật. Dữ liệu là công khai và không bị chặn bởi luật bản quyền.

  • Có tranh cãi về việc một số nội dung có thể đến từ thư viện lậu, dẫn đến tranh luận pháp lý về quyền sở hữu dữ liệu và đạo đức AI.

  • ChatGPT dùng kỹ thuật "reinforcement learning from human feedback" để cải thiện phản hồi dựa trên nhận xét con người.

  • Các câu trả lời được tạo bằng cách chia nhỏ đầu vào thành token, rồi dự đoán token tiếp theo liên tục để hoàn thành phản hồi.

  • Dù nghe có vẻ rất "thông minh", ChatGPT vẫn có thể sai hoặc "ảo tưởng tự tin" – hiện tượng tạo ra thông tin sai nhưng diễn đạt rất chắc chắn.

  • Tính năng "bộ nhớ dài hạn" giúp ChatGPT nhớ thông tin từ các cuộc hội thoại trước, góp phần tạo cảm giác "nó biết bạn".

  • ChatGPT phản ánh cả thiên kiến và thiếu sót của nội dung do con người tạo ra – vì chính dữ liệu huấn luyện chứa những yếu tố đó.

  • Sự lưu loát và tự tin khiến ChatGPT dễ tạo ảo giác về trí tuệ thật sự, nhưng đó chỉ là kỹ năng mô phỏng văn phong.

📌 ChatGPT là công cụ AI tạo sinh mạnh mẽ, được huấn luyện từ hàng tỷ từ trên Internet công khai như Wikipedia, Reddit và mã nguồn mở. Nó không suy nghĩ như con người mà chỉ dự đoán văn bản tiếp theo. Mặc dù có thể nhớ cuộc trò chuyện và trình bày rất tự tin, ChatGPT vẫn mắc lỗi và phản ánh thiên kiến từ dữ liệu gốc. Người dùng cần hiểu rõ giới hạn để tận dụng AI một cách hiệu quả và có trách nhiệm.

https://www.techradar.com/computing/artificial-intelligence/how-does-chatgpt-know-so-much-about-everything-heres-where-ai-gets-its-knowledge-from

Không có file đính kèm.

61

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo