Databricks: Mô hình AI tự cải thiện mà không cần dữ liệu sạch, vượt mặt cả GPT-4o của OpenAI

  • Databricks đã phát triển một kỹ thuật học máy giúp nâng cao hiệu suất của mô hình AI mà không cần dữ liệu được gắn nhãn sạch sẽ.

  • Jonathan Frankle, giám đốc khoa học AI tại Databricks, xác định rằng "dữ liệu bẩn" là thách thức chính mà khách hàng gặp phải khi triển khai AI đáng tin cậy.

  • Phương pháp mới của Databricks kết hợp học tăng cường với dữ liệu huấn luyện tổng hợp (do AI tạo ra), tương tự như cách OpenAI, Google và DeepSeek đã sử dụng để cải thiện các mô hình của họ.

  • Kỹ thuật này tận dụng phương pháp "best-of-N", cho phép ngay cả mô hình yếu cũng có thể đạt điểm cao trong một nhiệm vụ cụ thể nếu được thử đủ nhiều lần.

  • Databricks đã huấn luyện một mô hình để dự đoán kết quả best-of-N nào mà người kiểm tra sẽ thích hơn. Mô hình phần thưởng này (DBRM) sau đó được sử dụng để cải thiện hiệu suất của các mô hình khác.

  • Phương pháp Test-time Adaptive Optimization (TAO) của Databricks sử dụng DBRM để chọn đầu ra tốt nhất từ một mô hình, tạo dữ liệu huấn luyện tổng hợp để tinh chỉnh mô hình đó.

  • Nghiên cứu của Databricks cho thấy phương pháp TAO cải thiện hiệu quả hơn khi được mở rộng lên các mô hình lớn hơn, có khả năng cao hơn.

  • Khi thử nghiệm trên FinanceBench, một tiêu chuẩn đánh giá khả năng trả lời câu hỏi tài chính, Llama 3.1B (mô hình nhỏ nhất của Meta) đạt 68,4%, trong khi GPT-4o của OpenAI đạt 82,1%.

  • Sử dụng kỹ thuật TAO, Databricks đã cải thiện điểm số của Llama 3.1B lên 82,8%, vượt qua cả mô hình của OpenAI.

  • Christopher Amato, nhà khoa học máy tính tại Đại học Northeastern, đánh giá ý tưởng này "rất hứa hẹn" và có thể cho phép gắn nhãn dữ liệu dễ mở rộng hơn, nhưng cũng cảnh báo rằng học tăng cường đôi khi có thể hoạt động không thể đoán trước.

  • Databricks đang sử dụng kỹ thuật TAO để tăng hiệu suất mô hình AI của khách hàng và giúp họ xây dựng các agent đầu tiên, bao gồm cả một ứng dụng theo dõi sức khỏe yêu cầu độ chính xác y tế cao.

📌 Databricks đã phát triển phương pháp TAO kết hợp học tăng cường và dữ liệu tổng hợp, giúp mô hình AI cải thiện mà không cần dữ liệu sạch. Khi thử nghiệm, Llama 3.1B sử dụng TAO đạt 82,8% trên FinanceBench, vượt qua GPT-4o (82,1%) của OpenAI, mở ra khả năng triển khai AI đáng tin cậy trong nhiều lĩnh vực.

 

https://www.wired.com/story/databricks-has-a-trick-that-lets-ai-models-improve-themselves/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo