- Tối ưu hóa LLM là một thách thức, cần xác định cách bắt đầu, phương pháp tối ưu phù hợp và mức độ chính xác cần thiết cho sản xuất.
- Có 2 trục tối ưu chính: tối ưu ngữ cảnh (cung cấp kiến thức bổ sung) và tối ưu LLM (cải thiện tính nhất quán). Cần kết hợp linh hoạt cả hai trục này.
- Quy trình tối ưu điển hình: prompt engineering, thêm ví dụ tĩnh, truy xuất động (RAG), tinh chỉnh mô hình, điều chỉnh truy xuất và kiểm tra sự thật, tái huấn luyện mô hình.
- Prompt engineering là điểm khởi đầu tốt, giúp xác định ý nghĩa của độ chính xác cho từng trường hợp cụ thể. Tuy nhiên, nó khó mở rộng quy mô. Cần đánh giá hiệu quả trên tập dữ liệu kiểm tra.
- RAG giúp bổ sung ngữ cảnh chuyên biệt, giải quyết vấn đề thiếu kiến thức ngữ cảnh. Cần tối ưu cả truy xuất lẫn hành vi của mô hình.
- Tinh chỉnh mô hình giúp cải thiện độ chính xác và hiệu quả trên tác vụ cụ thể, giải quyết vấn đề học tập. Chất lượng dữ liệu huấn luyện quan trọng hơn số lượng. Cần đảm bảo dữ liệu huấn luyện đại diện cho thực tế.
- Xác định các trường hợp thành công/thất bại chính và chi phí liên quan. Thống kê thực nghiệm giúp đánh giá tác động vĩ mô. Cân nhắc giữa độ chính xác và chi phí vận hành.
- Về mặt kỹ thuật, cần xử lý các lỗi một cách tinh tế để không làm gián đoạn trải nghiệm người dùng, chẳng hạn như yêu cầu thêm thông tin, chuyển cho nhân viên hỗ trợ.
- Mức độ chính xác "đủ tốt" phụ thuộc vào giá trị kinh doanh mong đợi và chi phí khi xảy ra lỗi. Cần cân bằng giữa độ chính xác, trải nghiệm người dùng và chi phí vận hành.
📌 Tối ưu hóa LLM đòi hỏi kết hợp linh hoạt các kỹ thuật prompt engineering, RAG và tinh chỉnh mô hình dựa trên đánh giá cụ thể. Mục tiêu là đạt độ chính xác đủ tốt (khoảng 85% cho dịch vụ khách hàng) với chi phí chấp nhận được, xử lý khéo léo các lỗi để đảm bảo trải nghiệm người dùng tốt. Các doanh nghiệp lớn như Morgan Stanley, Klarna đã áp dụng thành công những phương pháp này, tiết kiệm đáng kể chi phí vận hành.
Citations:
https://platform.openai.com/docs/guides/optimizing-llm-accuracy/llm-optimization-context