AI kiến thức-khóa học 2024-05-20 10:59:23

Databricks: Cẩm nang lộ trình 5 giai đoạn triển khai ứng dụng AI tạo sinh chất lượng cao

Tóm tắt chi tiết và đầy đủ các nội dung chính của tài liệu "The Big Book of Generative AI" của Databricks:

1. Giới thiệu
- Tầm quan trọng của cơ sở hạ tầng dữ liệu và data lakehouse trong việc hỗ trợ triển khai ứng dụng GenAI chất lượng cao.
- Chất lượng dữ liệu là yếu tố then chốt để triển khai thành công GenAI.

2. Lộ trình 5 giai đoạn để triển khai ứng dụng GenAI chất lượng cao:

Giai đoạn 0: Sử dụng các mô hình nền tảng (foundation models)
- Giới thiệu mô hình DBRX - mô hình ngôn ngữ lớn mã nguồn mở mới nhất của Databricks với chất lượng vượt trội.
- DBRX được huấn luyện trên 12 nghìn tỷ token dữ liệu văn bản và mã nguồn, sử dụng kiến trúc mixture-of-experts (MoE) tiên tiến.
- DBRX đạt kết quả cao trên nhiều bài kiểm tra đánh giá, vượt trội hơn các mô hình mã nguồn mở khác và ngang ngửa với một số mô hình thương mại như GPT-3.5 hay Gemini 1.0 Pro.

Giai đoạn 1: Kỹ thuật prompt engineering để hướng dẫn hành vi của LLM
- Ví dụ: Phân tích tự động các bài đánh giá sản phẩm bằng LLM để trích xuất thông tin hữu ích.
- Sử dụng LLM để tóm tắt nội dung chính, phân loại cảm xúc tích cực/tiêu cực, nhận diện các vấn đề cần cải thiện của sản phẩm.
- Kết hợp với các công cụ khác trên nền tảng Databricks để xây dựng quy trình phân tích đánh giá sản phẩm tự động và hiệu quả.

Giai đoạn 2: Retrieval Augmented Generation (RAG) để cải thiện chất lượng đầu ra bằng cách kết hợp LLM với dữ liệu doanh nghiệp
- RAG cho phép bổ sung kiến thức từ cơ sở dữ liệu để LLM đưa ra câu trả lời chính xác và phù hợp hơn.
- Ví dụ: Cải thiện chatbot du lịch bằng cách tích hợp thông tin về khách sạn, giá cả, đánh giá từ cơ sở dữ liệu có cấu trúc.
- Sử dụng Databricks Vector Search và Feature & Function Serving để triển khai ứng dụng RAG một cách đơn giản và hiệu quả.

Giai đoạn 3: Fine-tuning mô hình nền tảng với dữ liệu riêng để tạo ra LLM chuyên biệt
- Ví dụ 1: Tạo LLM để tự động tạo tài liệu mô tả sản phẩm với chi phí thấp.
- Chỉ mất 2 kỹ sư trong 1 tháng với chi phí dưới 1000 USD để fine-tune mô hình MPT-7B tạo ra LLM chuyên biệt cho tác vụ này.
- Mô hình đạt chất lượng tương đương GPT-3.5 với thông lượng cao hơn và chi phí thấp hơn 10 lần.
- Ví dụ 2: Hướng dẫn tối ưu việc fine-tuning mô hình ngôn ngữ lớn OpenLLaMA bằng kỹ thuật LoRA/QLoRA.
- Khám phá ảnh hưởng của các siêu tham số quan trọng như rank r và các lớp được fine-tuning đến chất lượng mô hình.
- Chỉ cần fine-tune dưới 1% trọng số của mô hình 3B với 5000 mẫu dữ liệu huấn luyện là đủ để đạt kết quả tốt.

Giai đoạn 4: Đào tạo từ đầu (pretraining) để xây dựng mô hình hoàn toàn mới
- Ví dụ: Đào tạo mô hình Stable Diffusion 2 với chi phí dưới 50.000 USD bằng nền tảng MosaicML.
- Sử dụng các kỹ thuật tối ưu như xFormers, precompute latents, low precision LayerNorm, FSDP để tăng tốc huấn luyện lên gần 3 lần.
- Mô hình đạt chất lượng tương đương bản gốc Stable Diffusion 2 với thời gian huấn luyện chỉ 6.8 ngày.

Giai đoạn 5: Đánh giá liên tục LLM và ứng dụng GenAI đã triển khai
- Ví dụ 1: Các phương pháp hay nhất để đánh giá chatbot sử dụng kiến trúc RAG.
- Sử dụng LLM (như GPT-3.5/4) làm "trọng tài" để đánh giá tự động độ chính xác, mức độ đầy đủ và khả năng đọc hiểu.
- Cung cấp một số ví dụ điểm số giúp GPT-3.5 đánh giá hiệu quả tương đương GPT-4 với chi phí thấp hơn 10 lần.
- Sử dụng thang điểm 0-3 hoặc 1-5 để dễ giải thích và nhất quán giữa đánh giá của người và của LLM.
- Ví dụ 2: Quy trình đánh giá chatbot trả lời câu hỏi từ tài liệu MLflow bằng Databricks.
- Sử dụng Databricks Model Serving để triển khai và quản lý các mô hình ngôn ngữ lớn bên ngoài.
- Dùng Playground để thử nghiệm các prompt và tham số khác nhau, tìm ra bộ tối ưu cho bài toán.
- Xây dựng ứng dụng mẫu với LangChain, lưu trữ vector và nhúng với Databricks, sử dụng GPT-3.5 để tạo câu trả lời.
- Ghi lại quá trình chạy mô hình và kết quả đánh giá bằng MLflow để theo dõi và cải tiến liên tục.

3. Tổng kết
- Databricks cung cấp nền tảng và công cụ toàn diện để khách hàng xây dựng và triển khai các ứng dụng GenAI chất lượng cao.
- Bao gồm: Đào tạo mô hình với Mosaic AI Training, quản lý mô hình với MLflow, lưu trữ và quản trị dữ liệu với Delta Lake và Unity Catalog.
- Hỗ trợ khách hàng trong từng bước của lộ trình triển khai GenAI từ thử nghiệm đến tối ưu và mở rộng quy mô.

Citations:
[1] https://www.databricks.com/sites/default/files/2024-04/Databricks-Big-Book-Of-GenAI-FINAL.pdf

Không có file đính kèm.

Nguồn tham khảo

150

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

Databricks: Cẩm nang lộ trình 5 giai đoạn triển khai ứng dụng AI tạo sinh chất lượng cao

Thảo luận

Follow Us

Tin phổ biến

TAG