OpenAI vừa công bố cho phép các nhà phát triển bên ngoài sử dụng Reinforcement Fine-Tuning (RFT) để tinh chỉnh mô hình ngôn ngữ o4-mini theo mục tiêu, quy trình và dữ liệu nội bộ doanh nghiệp.
RFT giúp tạo ra một phiên bản AI riêng có thể tích hợp vào hệ thống chatbot, ứng dụng nội bộ hoặc truy vấn tri thức công ty mà không cần đào tạo lại toàn bộ mô hình từ đầu.
Khác với học có giám sát (SFT), RFT sử dụng mô hình chấm điểm để đánh giá nhiều phản hồi và cập nhật trọng số mô hình dựa trên chất lượng phản hồi thay vì đáp án cố định.
Tổ chức có thể xác định logic chấm điểm tùy chỉnh hoặc dùng mô hình chấm điểm sẵn như GPT-4.1, và cấu hình quá trình đào tạo dễ dàng qua API hoặc dashboard của OpenAI.
RFT hiện chỉ hỗ trợ các mô hình o-series, bắt đầu với o4-mini – một mô hình lý luận nhẹ nhưng hiệu quả, phù hợp cho các ứng dụng doanh nghiệp cần kiểm soát đầu ra và ngôn ngữ chuyên biệt.
Các ứng dụng thành công gồm:
Accordance AI cải thiện 39% độ chính xác khi phân tích thuế
Ambience Healthcare tăng 12 điểm trong mã hóa ICD-10
Harvey nâng độ chính xác trích xuất trích dẫn pháp lý lên 20%
Runloop tăng 12% hiệu quả sinh mã API Stripe
Milo cải thiện lịch trình phức tạp lên đến 25 điểm
SafetyKit tăng F1 về kiểm duyệt nội dung từ 86% lên 90%
Chi phí RFT tính theo thời gian đào tạo thực tế: 100 USD/giờ, tính theo từng giây. Các mô hình chấm điểm (nếu dùng GPT) được tính riêng theo mức giá API tiêu chuẩn.
Ví dụ chi phí:
4 giờ huấn luyện = 400 USD
1,75 giờ = 175 USD
2 giờ huấn luyện + 1 giờ lỗi = 200 USD
Để tiết kiệm chi phí, nên bắt đầu bằng tập dữ liệu nhỏ, sử dụng trình chấm điểm nhẹ và giảm kiểm tra không cần thiết.
OpenAI còn hỗ trợ giảm 50% chi phí cho các đội ngũ chia sẻ tập dữ liệu huấn luyện với công ty.
RFT đặc biệt phù hợp với các tổ chức có yêu cầu cụ thể, đầu ra có cấu trúc rõ ràng, và nhu cầu tuân thủ cao – ví dụ như tài chính, pháp lý, chăm sóc sức khỏe hoặc điều hành nội bộ.
Ngoài RFT, OpenAI cũng triển khai SFT cho mô hình GPT-4.1 nano – lựa chọn nhanh và tiết kiệm nhất hiện tại cho đào tạo tùy chỉnh.
📌 OpenAI mở quyền tinh chỉnh mô hình o4-mini bằng RFT, cho phép doanh nghiệp tạo AI theo “chất riêng” với chi phí 100 USD/giờ. Các ứng dụng ban đầu cho thấy độ chính xác tăng tới 39%. Với RFT, doanh nghiệp có thể triển khai AI hiệu quả mà không cần hạ tầng RL phức tạp.
https://venturebeat.com/business/you-can-now-fine-tune-your-enterprises-own-version-of-openais-o4-mini-reasoning-model-with-reinforcement-learning/