Nút thắt lớn nhất trong các mô hình ngôn ngữ lớn
- Các Mô hình ngôn ngữ lớn (LLMs) như GPT-4 của OpenAI và Claude 2 của Anthropic đang gây chú ý với khả năng tạo ra văn bản giống như con người.
- Doanh nghiệp tìm cách sử dụng LLMs để cải thiện sản phẩm và dịch vụ nhưng gặp phải rào cản từ giới hạn tốc độ xử lý - rate limits.
- API công cộng của LLMs đặt giới hạn số token xử lý mỗi phút, số yêu cầu mỗi phút và mỗi ngày, làm khó việc sử dụng LLMs trong môi trường sản xuất.
- Các startup và doanh nghiệp lớn đều chịu ảnh hưởng bởi giới hạn này, không có quyền truy cập đặc biệt thì ứng dụng không hoạt động.
- Một số giải pháp là sử dụng các mô hình AI tạo sinh không bị giới hạn bởi LLMs, hoặc yêu cầu tăng giới hạn tốc độ từ nhà cung cấp.
- Thiếu GPU là nguyên nhân chính, do không đủ chip để đáp ứng nhu cầu, và xây dựng nhà máy sản xuất bán dẫn mới đòi hỏi chi phí và thời gian lớn.
- Các công ty tìm kiếm mô hình AI thay thế và kỹ thuật làm suy luận rẻ hơn, nhanh hơn như quantization và mô hình rời rạc.
📌 Giới hạn rate limit là trở ngại lớn cho việc triển khai LLMs trong doanh nghiệp, với các giới hạn như 3 yêu cầu/phút và 10.000 tokens/phút từ OpenAI. Sự thiếu hụt GPU, cần cho việc xử lý dữ liệu LLMs, do không đủ chip làm tăng cạnh tranh cho nguồn lực này. Các giải pháp như mô hình AI tạo sinh không bị giới hạn và yêu cầu tăng giới hạn tốc độ xử lý đang được khám phá. Để giải quyết vấn đề một cách triệt để, cần cải tiến phần cứng và phát triển LLMs mới yêu cầu ít tài nguyên tính toán hơn.