Tóm tắt chi tiết và đầy đủ các nội dung chính của tài liệu "The Big Book of Generative AI" của Databricks:
1. Giới thiệu
- Tầm quan trọng của cơ sở hạ tầng dữ liệu và data lakehouse trong việc hỗ trợ triển khai ứng dụng GenAI chất lượng cao.
- Chất lượng dữ liệu là yếu tố then chốt để triển khai thành công GenAI.
2. Lộ trình 5 giai đoạn để triển khai ứng dụng GenAI chất lượng cao:
Giai đoạn 0: Sử dụng các mô hình nền tảng (foundation models)
- Giới thiệu mô hình DBRX - mô hình ngôn ngữ lớn mã nguồn mở mới nhất của Databricks với chất lượng vượt trội.
- DBRX được huấn luyện trên 12 nghìn tỷ token dữ liệu văn bản và mã nguồn, sử dụng kiến trúc mixture-of-experts (MoE) tiên tiến.
- DBRX đạt kết quả cao trên nhiều bài kiểm tra đánh giá, vượt trội hơn các mô hình mã nguồn mở khác và ngang ngửa với một số mô hình thương mại như GPT-3.5 hay Gemini 1.0 Pro.
Giai đoạn 1: Kỹ thuật prompt engineering để hướng dẫn hành vi của LLM
- Ví dụ: Phân tích tự động các bài đánh giá sản phẩm bằng LLM để trích xuất thông tin hữu ích.
- Sử dụng LLM để tóm tắt nội dung chính, phân loại cảm xúc tích cực/tiêu cực, nhận diện các vấn đề cần cải thiện của sản phẩm.
- Kết hợp với các công cụ khác trên nền tảng Databricks để xây dựng quy trình phân tích đánh giá sản phẩm tự động và hiệu quả.
Giai đoạn 2: Retrieval Augmented Generation (RAG) để cải thiện chất lượng đầu ra bằng cách kết hợp LLM với dữ liệu doanh nghiệp
- RAG cho phép bổ sung kiến thức từ cơ sở dữ liệu để LLM đưa ra câu trả lời chính xác và phù hợp hơn.
- Ví dụ: Cải thiện chatbot du lịch bằng cách tích hợp thông tin về khách sạn, giá cả, đánh giá từ cơ sở dữ liệu có cấu trúc.
- Sử dụng Databricks Vector Search và Feature & Function Serving để triển khai ứng dụng RAG một cách đơn giản và hiệu quả.
Giai đoạn 3: Fine-tuning mô hình nền tảng với dữ liệu riêng để tạo ra LLM chuyên biệt
- Ví dụ 1: Tạo LLM để tự động tạo tài liệu mô tả sản phẩm với chi phí thấp.
- Chỉ mất 2 kỹ sư trong 1 tháng với chi phí dưới 1000 USD để fine-tune mô hình MPT-7B tạo ra LLM chuyên biệt cho tác vụ này.
- Mô hình đạt chất lượng tương đương GPT-3.5 với thông lượng cao hơn và chi phí thấp hơn 10 lần.
- Ví dụ 2: Hướng dẫn tối ưu việc fine-tuning mô hình ngôn ngữ lớn OpenLLaMA bằng kỹ thuật LoRA/QLoRA.
- Khám phá ảnh hưởng của các siêu tham số quan trọng như rank r và các lớp được fine-tuning đến chất lượng mô hình.
- Chỉ cần fine-tune dưới 1% trọng số của mô hình 3B với 5000 mẫu dữ liệu huấn luyện là đủ để đạt kết quả tốt.
Giai đoạn 4: Đào tạo từ đầu (pretraining) để xây dựng mô hình hoàn toàn mới
- Ví dụ: Đào tạo mô hình Stable Diffusion 2 với chi phí dưới 50.000 USD bằng nền tảng MosaicML.
- Sử dụng các kỹ thuật tối ưu như xFormers, precompute latents, low precision LayerNorm, FSDP để tăng tốc huấn luyện lên gần 3 lần.
- Mô hình đạt chất lượng tương đương bản gốc Stable Diffusion 2 với thời gian huấn luyện chỉ 6.8 ngày.
Giai đoạn 5: Đánh giá liên tục LLM và ứng dụng GenAI đã triển khai
- Ví dụ 1: Các phương pháp hay nhất để đánh giá chatbot sử dụng kiến trúc RAG.
- Sử dụng LLM (như GPT-3.5/4) làm "trọng tài" để đánh giá tự động độ chính xác, mức độ đầy đủ và khả năng đọc hiểu.
- Cung cấp một số ví dụ điểm số giúp GPT-3.5 đánh giá hiệu quả tương đương GPT-4 với chi phí thấp hơn 10 lần.
- Sử dụng thang điểm 0-3 hoặc 1-5 để dễ giải thích và nhất quán giữa đánh giá của người và của LLM.
- Ví dụ 2: Quy trình đánh giá chatbot trả lời câu hỏi từ tài liệu MLflow bằng Databricks.
- Sử dụng Databricks Model Serving để triển khai và quản lý các mô hình ngôn ngữ lớn bên ngoài.
- Dùng Playground để thử nghiệm các prompt và tham số khác nhau, tìm ra bộ tối ưu cho bài toán.
- Xây dựng ứng dụng mẫu với LangChain, lưu trữ vector và nhúng với Databricks, sử dụng GPT-3.5 để tạo câu trả lời.
- Ghi lại quá trình chạy mô hình và kết quả đánh giá bằng MLflow để theo dõi và cải tiến liên tục.
3. Tổng kết
- Databricks cung cấp nền tảng và công cụ toàn diện để khách hàng xây dựng và triển khai các ứng dụng GenAI chất lượng cao.
- Bao gồm: Đào tạo mô hình với Mosaic AI Training, quản lý mô hình với MLflow, lưu trữ và quản trị dữ liệu với Delta Lake và Unity Catalog.
- Hỗ trợ khách hàng trong từng bước của lộ trình triển khai GenAI từ thử nghiệm đến tối ưu và mở rộng quy mô.
Citations:
[1] https://www.databricks.com/sites/default/files/2024-04/Databricks-Big-Book-Of-GenAI-FINAL.pdf