• Các tiêu chuẩn đánh giá hiệu suất mô hình AI hiện tại đang bộc lộ nhiều điểm yếu nghiêm trọng về thiết kế, khó tái tạo kết quả và các chỉ số đo lường thiếu chính xác
• Nghiên cứu mới chỉ ra rằng các công ty AI thường trích dẫn điểm chuẩn như minh chứng cho sự thành công của mô hình mới, nhưng những tiêu chuẩn này chưa đủ độ tin cậy để sử dụng trong quản lý
• Các nhà nghiên cứu đã huấn luyện AI agent để sao chép chính xác tính cách của 1.000 người, mở ra lo ngại về đạo đức khi các công cụ này trở nên phổ biến
• Donald Trump cam kết áp thuế đặc biệt với Trung Quốc, Canada và Mexico nhằm ngăn chặn buôn lậu ma túy và nhập cư bất hợp pháp vào Mỹ
• Amazon đang nỗ lực cạnh tranh với Nvidia bằng cách phát triển chip AI riêng, dự kiến hoàn thiện vào cuối năm 2024
• Neuralink sẽ thử nghiệm khả năng điều khiển cánh tay robot thông qua cấy ghép não đầu tiên không dây
• Google âm thầm nghiên cứu năng lượng hạt nhân trong nhiều năm qua
• Mô hình AI mới của Nvidia có thể tạo ra âm thanh hoàn toàn mới như saxophone gào thét hay đàn cello giận dữ
• Các nhà khoa học phát hiện nguyên nhân có thể gây ra tín hiệu radio bí ẩn từ vũ trụ: tiểu hành tinh và sao chổi va chạm với sao neutron
📌 Các tiêu chuẩn đánh giá AI hiện tại còn nhiều hạn chế nghiêm trọng. Donald Trump cam kết áp thuế mới với 3 nước láng giềng. Công nghệ mới từ các "ông lớn" như Amazon, Neuralink và Nvidia đang định hình tương lai của AI, robot và âm nhạc.
https://www.technologyreview.com/2024/11/26/1107361/the-download-rethinking-ai-benchmarks-and-the-ethics-of-ai-agents/
- FrontierMath là một tiêu chuẩn mới, bao gồm các bài toán toán học khó khăn do hơn 60 nhà toán học từ các trường đại học danh tiếng như MIT và Harvard thiết kế.
- Các bài toán được chọn lọc từ nhiều nhánh của toán học hiện đại, bao gồm lý thuyết số và hình học đại số, chiếm 70% các chủ đề hàng đầu trong phân loại toán học MSC2020.
- Mặc dù AI đã có những tiến bộ đáng kể, nhưng các mô hình hiện tại chỉ giải quyết được dưới 2% bài toán trong FrontierMath, cho thấy một khoảng cách lớn giữa AI và năng lực của con người.
- Các bài toán trong FrontierMath được thiết kế khó khăn, yêu cầu hàng giờ hoặc hàng ngày làm việc từ các nhà toán học chuyên nghiệp, nhằm phản ánh thực tế nghiên cứu trong lĩnh vực toán học.
- Tiêu chuẩn này khắc phục những hạn chế của các bộ dữ liệu trước đó như GSM8K và MATH, tập trung vào những bài toán nghiên cứu thay vì chỉ các câu hỏi cấp trung học và đại học.
- FrontierMath cung cấp một khung đánh giá tự động hóa, cho phép xác minh các câu trả lời mà không cần can thiệp của con người, sử dụng Python và thư viện SymPy để đảm bảo tính chính xác và khả năng tái sản xuất.
- Để đảm bảo tính công bằng, các bài toán được thiết kế “không thể đoán” với các câu hỏi phức tạp, điều này làm giảm khả năng thành công từ việc đoán mò.
- Các mô hình AI như GPT-4 và Claude 3.5 Sonnet đã được đánh giá trên FrontierMath nhưng không có mô hình nào giải quyết được 2% bài toán, cho thấy một thách thức lớn trong việc phát triển khả năng lý luận của AI.
- FrontierMath không chỉ là công cụ đánh giá mà còn là bản đồ giúp các nhà nghiên cứu AI xác định điểm yếu và cải thiện khả năng lý luận và giải quyết vấn đề của các hệ thống AI trong tương lai.
📌 FrontierMath là một bước tiến quan trọng trong việc đánh giá AI, cho thấy rằng AI vẫn còn xa mới đạt được khả năng lý luận của con người trong toán học nâng cao. Các mô hình hiện tại chỉ giải quyết được dưới 2% bài toán trong tiêu chuẩn này, mở ra cơ hội cho nghiên cứu và cải tiến tiếp theo.
https://www.marktechpost.com/2024/11/08/frontiermath-the-benchmark-that-highlights-ais-limits-in-mathematics/
- SimpleQA là một chuẩn mực mới nhằm đo lường khả năng cung cấp câu trả lời chính xác của các mô hình ngôn ngữ.
- Vấn đề "ảo giác" trong AI khiến nhiều mô hình thường đưa ra thông tin sai lệch hoặc không có cơ sở.
- Mục tiêu của SimpleQA là tạo ra một tập dữ liệu với độ chính xác cao, bao gồm 4.326 câu hỏi thuộc nhiều lĩnh vực khác nhau như khoa học, công nghệ, thể thao và giải trí.
- Các câu hỏi trong SimpleQA được thiết kế để có một câu trả lời duy nhất, dễ dàng chấm điểm và không thay đổi theo thời gian.
- Tập dữ liệu được xây dựng bởi 2 huấn luyện viên AI độc lập để đảm bảo tính chính xác và sự đồng thuận trong câu trả lời.
- Một huấn luyện viên thứ 3 đã kiểm tra ngẫu nhiên 1.000 câu hỏi và đạt tỷ lệ đồng thuận 94.4%, cho thấy chất lượng cao của tập dữ liệu.
- SimpleQA được thiết kế để thách thức các mô hình tiên tiến như GPT-4o, với tỷ lệ đúng dưới 40% cho các mô hình này.
- Đánh giá được thực hiện bằng cách sử dụng một bộ phân loại ChatGPT để phân loại câu trả lời thành "đúng", "sai" hoặc "không thử".
- Kết quả cho thấy các mô hình lớn hơn như GPT-4o có độ chính xác cao hơn so với các phiên bản nhỏ hơn như GPT-4o-mini.
- Độ tin cậy của các mô hình cũng được đo lường thông qua việc yêu cầu chúng đưa ra mức độ tự tin về câu trả lời của mình.
- Một nghiên cứu cho thấy rằng o1-preview có độ tin cậy cao hơn so với o1-mini và GPT-4o-mini.
- SimpleQA chỉ tập trung vào các câu hỏi ngắn, điều này đặt ra câu hỏi liệu khả năng cung cấp câu trả lời chính xác có tương quan với khả năng viết các phản hồi dài hơn hay không.
📌 SimpleQA là chuẩn mực mới do OpenAI đề xuất để đánh giá khả năng cung cấp thông tin chính xác của AI với 4.326 câu hỏi thuộc nhiều lĩnh vực khác nhau. Tỷ lệ đồng thuận giữa các huấn luyện viên AI đạt 94.4%, cho thấy chất lượng cao của tập dữ liệu này.
https://openai.com/index/introducing-simpleqa/
• Apple vừa công bố một nghiên cứu mới chỉ ra rằng các mô hình AI dựa trên LLM như của Meta và OpenAI vẫn thiếu kỹ năng suy luận cơ bản.
• Nhóm nghiên cứu đề xuất một tiêu chuẩn đánh giá mới có tên GSM-Symbolic để đo lường khả năng suy luận của các mô hình LLM.
• Kết quả thử nghiệm ban đầu cho thấy chỉ cần thay đổi nhỏ trong cách diễn đạt câu hỏi có thể dẫn đến các câu trả lời khác nhau đáng kể, làm suy giảm độ tin cậy của các mô hình.
• Nghiên cứu tập trung vào tính "mong manh" của suy luận toán học bằng cách thêm thông tin ngữ cảnh vào câu hỏi mà con người có thể hiểu, nhưng không nên ảnh hưởng đến phép toán cơ bản của lời giải.
• Kết quả cho thấy hiệu suất của tất cả các mô hình đều giảm khi chỉ thay đổi các giá trị số trong câu hỏi trong tiêu chuẩn GSM-Symbolic.
• Việc thêm chỉ một câu có vẻ cung cấp thông tin liên quan vào một bài toán có thể làm giảm độ chính xác của câu trả lời cuối cùng tới 65%.
• Nghiên cứu kết luận rằng không thể xây dựng các tác nhân đáng tin cậy trên nền tảng này, khi chỉ cần thay đổi một vài từ hoặc thêm một chút thông tin không liên quan có thể cho ra câu trả lời khác.
• Một ví dụ minh họa vấn đề là bài toán yêu cầu hiểu thực sự về câu hỏi. Nhiệm vụ được gọi là "GSM-NoOp" tương tự như các bài toán đố mà học sinh tiểu học có thể gặp.
• Câu hỏi bắt đầu với thông tin cần thiết để đưa ra kết quả, sau đó thêm một mệnh đề có vẻ liên quan nhưng thực tế không ảnh hưởng đến câu trả lời cuối cùng.
• Mô hình của OpenAI và Llama3-8b của Meta đã trừ 5 quả kiwi nhỏ hơn khỏi tổng số, mặc dù điều này không nên ảnh hưởng đến kết quả.
• Nghiên cứu kết luận không tìm thấy bằng chứng về suy luận chính thức trong các mô hình ngôn ngữ. Hành vi của LLM được giải thích tốt hơn bằng "khớp mẫu tinh vi".
• Nghiên cứu này được hỗ trợ bởi một nghiên cứu trước đó từ năm 2019, cho thấy có thể đánh lừa các mô hình AI một cách đáng tin cậy bằng cách đặt câu hỏi về tuổi của hai cầu thủ Super Bowl trước đây.
📌 Apple chứng minh các mô hình AI dựa trên LLM thiếu khả năng suy luận cơ bản. Nghiên cứu sử dụng tiêu chuẩn GSM-Symbolic cho thấy thay đổi nhỏ trong câu hỏi có thể làm giảm độ chính xác tới 65%. Kết luận: không thể xây dựng AI đáng tin cậy trên nền tảng này.
https://appleinsider.com/articles/24/10/12/apples-study-proves-that-llm-based-ai-models-are-flawed-because-they-cannot-reason
• DeepMind giới thiệu bộ đánh giá Michelangelo nhằm đánh giá khả năng suy luận trên ngữ cảnh dài của các mô hình ngôn ngữ lớn (LLM).
• Các LLM hiện nay có thể xử lý hàng trăm nghìn hoặc thậm chí hàng triệu token trong một lần nhập, mở ra nhiều khả năng mới cho các nhà phát triển.
• Tuy nhiên, các đánh giá hiện tại chủ yếu tập trung vào khả năng truy xuất thông tin, chưa phản ánh đầy đủ khả năng suy luận trên toàn bộ ngữ cảnh.
• Michelangelo dựa trên khung Latent Structure Queries (LSQ), tập trung đánh giá khả năng hiểu cấu trúc và mối quan hệ thông tin trong cửa sổ ngữ cảnh.
• Bộ đánh giá gồm 3 nhiệm vụ chính:
- Latent list: Xử lý chuỗi thao tác dài trên danh sách Python
- Multi-round co-reference resolution (MRCR): Tạo các phần của cuộc hội thoại dài
- "I don't know" (IDK): Trả lời câu hỏi về một câu chuyện dài, nhận biết khi không có thông tin
• LSQ có 3 điểm khác biệt chính so với các phương pháp khác:
- Tránh lỗi đánh giá chỉ dựa trên truy xuất thông tin
- Cho phép tăng độ phức tạp và độ dài ngữ cảnh độc lập
- Đủ tổng quát để đánh giá nhiều loại nhiệm vụ suy luận
• Các nhà nghiên cứu đã đánh giá 10 LLM hàng đầu trên Michelangelo, bao gồm các biến thể của Gemini, GPT-4 và Claude.
• Kết quả cho thấy:
- Gemini thực hiện tốt nhất ở MRCR
- GPT xuất sắc ở Latent List
- Claude 3.5 Sonnet đạt điểm cao nhất ở IDK
• Tuy nhiên, tất cả các mô hình đều giảm hiệu suất đáng kể khi độ phức tạp của nhiệm vụ suy luận tăng lên.
• Trong ứng dụng thực tế, hiệu suất của mô hình có thể giảm khi độ dài ngữ cảnh tăng, đặc biệt khi tài liệu chứa nhiều thông tin không liên quan.
• Nhóm nghiên cứu sẽ tiếp tục bổ sung thêm các đánh giá vào Michelangelo và hy vọng có thể cung cấp trực tiếp cho các nhà nghiên cứu khác để kiểm tra mô hình của họ.
📌 Michelangelo của DeepMind tiết lộ LLM hiện tại vẫn gặp khó khăn với suy luận ngữ cảnh dài. Gemini, GPT và Claude thể hiện điểm mạnh khác nhau trong 3 nhiệm vụ. Hiệu suất giảm khi độ phức tạp tăng, cho thấy cần cải thiện khả năng suy luận trên dữ liệu lớn.
https://venturebeat.com/ai/deepminds-michelangelo-benchmark-reveals-limitations-of-long-context-llms/
• Các nhà nghiên cứu từ Mila, Google DeepMind và Microsoft Research đã giới thiệu phương pháp đánh giá mới có tên "Compositional Grade-School Math (GSM)" để kiểm tra khả năng suy luận của mô hình ngôn ngữ lớn (LLM).
• Phương pháp này liên kết hai bài toán riêng biệt, trong đó lời giải của bài toán đầu trở thành biến số trong bài toán thứ hai, đòi hỏi mô hình phải xử lý các phụ thuộc giữa các câu hỏi.
• Đánh giá được thực hiện trên nhiều LLM khác nhau, bao gồm cả mô hình mở như LLAMA3 và mô hình đóng như GPT và Gemini, sử dụng phương pháp gợi ý 8-shot.
• Kết quả cho thấy khoảng cách lớn về khả năng suy luận. Ví dụ, mô hình GPT-4o mini có hiệu suất kém hơn 2-12 lần trên Compositional GSM so với GSM8K tiêu chuẩn.
• Mô hình chuyên biệt về toán học như Qwen2.5-MATH-72B chỉ giải được dưới 60% bài toán Compositional GSM cấp tiểu học, dù đạt trên 80% độ chính xác với câu hỏi cấp trung học.
• LLAMA3-8B và Mistral-7B cho thấy sự sụt giảm mạnh khi phải liên kết câu trả lời giữa các bài toán liên quan, dù đạt điểm cao trên các bài toán riêng lẻ.
• Việc điều chỉnh hướng dẫn cải thiện kết quả cho các mô hình nhỏ hơn trên GSM8K tiêu chuẩn, nhưng chỉ cải thiện nhẹ trên Compositional GSM.
• Tạo mã thay vì sử dụng ngôn ngữ tự nhiên dẫn đến cải thiện 71% đến 149% cho một số mô hình nhỏ hơn trên Compositional GSM.
• Phân tích cho thấy sự sụt giảm hiệu suất không phải do rò rỉ bộ kiểm tra mà do nhiễu loạn bởi ngữ cảnh bổ sung và suy luận kém ở bước thứ hai.
• Mô hình như LLAMA3-70B-IT và Gemini 1.5 Pro thường không áp dụng chính xác lời giải của câu hỏi đầu tiên khi giải câu hỏi thứ hai, dẫn đến câu trả lời cuối cùng không chính xác.
• Khoảng cách suy luận ở bước thứ hai rõ rệt hơn ở các mô hình nhỏ hơn, thường bỏ qua các chi tiết quan trọng khi giải quyết vấn đề phức tạp.
📌 Nghiên cứu cho thấy LLM hiện tại vẫn gặp khó khăn với các tác vụ suy luận phức hợp, dù có hiệu suất cao trên các bài kiểm tra tiêu chuẩn. Cần có chiến lược đào tạo và thiết kế đánh giá mạnh mẽ hơn để nâng cao khả năng suy luận đa bước của các mô hình AI.
https://www.marktechpost.com/2024/10/06/compositional-gsm-a-new-ai-benchmark-for-evaluating-large-language-models-reasoning-capabilities-in-multi-step-problems/
• Google và Đại học Harvard đã phát triển bộ dữ liệu FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) gồm 824 câu hỏi đa bước thách thức để đánh giá các hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG).
• FRAMES đánh giá 3 khả năng cốt lõi của hệ thống RAG: tính chính xác, khả năng truy xuất và suy luận. Các câu hỏi bao gồm nhiều chủ đề từ lịch sử, thể thao đến hiện tượng khoa học.
• Khoảng 36% câu hỏi yêu cầu suy luận qua nhiều ràng buộc, 20% đòi hỏi so sánh số học, và 16% cần phân biệt thời gian. Mỗi câu hỏi cần từ 2-15 bài viết Wikipedia để trả lời.
• Phương pháp truy xuất đơn bước truyền thống chỉ đạt độ chính xác 0,40, trong khi phương pháp truy xuất đa bước mới cải thiện đáng kể lên 0,66.
• Phương pháp mới tạo ra nhiều truy vấn tìm kiếm theo các bước lặp lại, mỗi truy vấn truy xuất các tài liệu xếp hạng cao nhất và thêm vào ngữ cảnh của mô hình.
• Mô hình tiên tiến nhất đạt độ chính xác 0,40 trong kịch bản đánh giá một bước, cải thiện lên 0,45 với hai tài liệu bổ sung và 0,47 với bốn tài liệu.
• Oracle Prompt, nơi tất cả tài liệu cần thiết có trong ngữ cảnh, cho độ chính xác 0,73, cho thấy tiềm năng của hệ thống truy xuất hoàn hảo.
• Nghiên cứu nhấn mạnh nhu cầu phát triển thêm các hệ thống RAG, đặc biệt là cải thiện cơ chế truy xuất và khả năng suy luận.
• Kết quả cung cấp nền tảng vững chắc cho công việc trong tương lai tập trung vào cải thiện tích hợp truy xuất đa tài liệu phức tạp và tinh chỉnh khung suy luận.
• Bộ dữ liệu FRAMES cung cấp bức tranh rõ ràng hơn về hiệu suất của hệ thống RAG trong các ứng dụng thực tế, mở đường cho các đổi mới trong tương lai.
📌 Google phát hành FRAMES - bộ dữ liệu 824 câu hỏi đa bước để đánh giá toàn diện hệ thống RAG. Phương pháp truy xuất đa bước mới cải thiện độ chính xác từ 0,40 lên 0,66. Tuy nhiên, vẫn còn thách thức trong suy luận số học và xử lý bảng biểu.
https://www.marktechpost.com/2024/10/01/google-releases-frames-a-comprehensive-evaluation-dataset-designed-to-test-retrieval-augmented-generation-rag-applications-on-factuality-retrieval-accuracy-and-reasoning/
• JailbreakBench là một công cụ đánh giá mở nguồn mới được phát triển bởi các nhà nghiên cứu từ Đại học Pennsylvania, ETH Zurich, EPFL và Sony AI nhằm tiêu chuẩn hóa việc đánh giá các cuộc tấn công và phòng thủ jailbreak đối với mô hình ngôn ngữ lớn (LLM).
• Mục tiêu của JailbreakBench là cung cấp một mô hình toàn diện, dễ tiếp cận và có thể tái tạo để đánh giá bảo mật của LLM.
• JailbreakBench gồm 4 thành phần chính:
- Bộ sưu tập các prompt đối kháng (adversarial prompts) cập nhật liên tục
- Bộ dữ liệu gồm 100 hành vi khác nhau để thực hiện jailbreak, tuân thủ quy định sử dụng của OpenAI
- Khung đánh giá tiêu chuẩn hóa trên GitHub với các hàm tính điểm, prompt hệ thống, mẫu chat và mô hình mối đe dọa
- Bảng xếp hạng trên website chính thức để so sánh hiệu quả của các cuộc tấn công và phòng thủ jailbreak
• Công cụ này giải quyết vấn đề thiếu phương pháp tiêu chuẩn để đánh giá các cuộc tấn công jailbreak, giúp so sánh kết quả giữa các nghiên cứu khác nhau.
• Mặc dù có rủi ro về việc công khai các prompt đối kháng, nhưng nhóm nghiên cứu cho rằng lợi ích tổng thể vượt trội hơn. JailbreakBench giúp cộng đồng nghiên cứu hiểu sâu hơn về lỗ hổng của LLM và phát triển các biện pháp phòng thủ mạnh mẽ hơn.
• Mục tiêu cuối cùng là tạo ra các mô hình ngôn ngữ đáng tin cậy và an toàn hơn, đặc biệt khi chúng được sử dụng trong các lĩnh vực nhạy cảm hoặc có rủi ro cao.
• JailbreakBench đại diện cho một bước tiến quan trọng trong việc nâng cao độ tin cậy và an toàn của mô hình ngôn ngữ trước các mối đe dọa bảo mật ngày càng phức tạp.
• Bằng cách tiêu chuẩn hóa quy trình đánh giá, cung cấp quyền truy cập mở vào các prompt đối kháng và thúc đẩy khả năng tái tạo, JailbreakBench hứa hẹn sẽ thúc đẩy sự phát triển trong việc bảo vệ LLM khỏi các thao túng đối kháng.
📌 JailbreakBench là công cụ đánh giá mở nguồn mới giúp tiêu chuẩn hóa việc đánh giá tấn công jailbreak vào LLM. Với 4 thành phần chính và bảng xếp hạng công khai, nó hỗ trợ cộng đồng nghiên cứu hiểu sâu hơn về lỗ hổng LLM, phát triển phòng thủ mạnh mẽ và tạo ra mô hình ngôn ngữ an toàn hơn.
https://www.marktechpost.com/2024/09/29/jailbreakbench-an-open-sourced-benchmark-for-jailbreaking-large-language-models-llms/
• AT&T đã giành vị trí số 1 về độ chính xác thực thi AI tạo sinh trong một bài kiểm tra chuẩn, vượt qua các công ty công nghệ lớn như IBM và Alibaba Group.
• Bài kiểm tra có tên Big Bench for Large-scale Database Grounded Text-to-SQL Evaluation (BIRD), đánh giá khả năng chuyển đổi truy vấn văn bản thông thường sang ngôn ngữ lập trình SQL của các nền tảng AI tạo sinh.
• BIRD bao gồm hơn 12.751 cặp câu hỏi-SQL độc đáo và 95 cơ sở dữ liệu lớn với tổng dung lượng 33,4 GB, охvаt hơn 37 lĩnh vực chuyên môn.
• AT&T đạt độ chính xác hơn 72% trong bài kiểm tra BIRD, so với 40% của ChatGPT 3.5 và 50% của ChatGPT 4.
• Công ty đã trả lời hơn 12.000 câu hỏi trong quá trình tham gia đánh giá BIRD.
• AT&T đã kết hợp công nghệ cơ sở dữ liệu với AI tạo sinh bằng cách liên kết lược đồ với các mô hình tiên tiến như ChatGPT và GPT-4.
• Công cụ Ask AT&T dựa trên AI tạo sinh được ra mắt vào tháng 6/2023, sử dụng phiên bản đầu của ChatGPT của OpenAI.
• Ask AT&T cho phép nhân viên được phê duyệt đặt câu hỏi cụ thể mà không cần chuyên gia dữ liệu hoặc lập trình viên viết mã.
• AT&T quyết định xây dựng nền tảng và công cụ AI tạo sinh riêng bằng cách đào tạo các mô hình ngôn ngữ lớn trên lượng dữ liệu nội bộ khổng lồ của mình.
• Công ty hiện tạo ra khoảng 1 tỷ token mỗi ngày, tương đương với khoảng 1 tỷ từ được tạo ra bởi AI tạo sinh.
• AI tạo sinh đang được sử dụng để tự động tóm tắt cuộc gọi đến của khách hàng, tiết kiệm từ 30 giây đến vài phút cho mỗi cuộc gọi.
• Nó cũng được dùng để đưa ra gợi ý về sản phẩm và dịch vụ phù hợp cho khách hàng, cũng như tạo ra các dòng mã máy tính.
• Mark Austin, Phó Chủ tịch khoa học dữ liệu tại AT&T, cho biết bước tiếp theo của AI tạo sinh là chuyển từ "hỏi dữ liệu" sang "giải thích dữ liệu", bao gồm xây dựng các mô hình để giải thích những gì đang xảy ra trong các lĩnh vực như churn, doanh số và gian lận.
• Austin nhấn mạnh rằng AI tạo sinh đang cho phép một mức độ tự động hóa và thông tin "đơn giản là không thể có trước đây", giúp nhân viên làm việc hiệu quả hơn nhiều.
📌 AT&T dẫn đầu về độ chính xác AI tạo sinh với 72% trong bài kiểm tra BIRD, vượt xa ChatGPT. Công ty tạo 1 tỷ token/ngày, ứng dụng AI vào tóm tắt cuộc gọi, gợi ý sản phẩm và tạo mã, nâng cao hiệu quả làm việc đáng kể.
https://www.mobileworldlive.com/att/att-tops-tech-leaders-in-genai-execution-accuracy-benchmark/
Sam Altman tiết lộ mô hình o1 của OpenAI đạt "cấp độ 2", hứa hẹn bước nhảy vọt sắp tới
• Sam Altman, CEO của OpenAI, đã chia sẻ tại sự kiện T-Mobile Capital Markets Day 2024 về sự cải thiện đáng kể của AI thông qua mô hình o1 sắp ra mắt.
• Mô hình o1 hiện đang ở giai đoạn tương đương với khả năng suy luận của GPT-2. Altman dự đoán sẽ có sự khác biệt lớn giữa phiên bản preview và phiên bản chính thức của o1.
• Trọng tâm của o1 là khả năng suy luận nâng cao để giải quyết vấn đề. Altman tin rằng trải nghiệm với o1 sẽ khiến người dùng không muốn quay lại các mô hình cũ.
• OpenAI đã phác thảo 5 cấp độ phát triển AI, với o1 đang ở cấp độ 2 (reasoners). Cấp độ 3 (agents) có thể sẽ xuất hiện trong tương lai gần.
• Bài đăng ra mắt o1 đề cập đến dự báo của OpenAI về bước tiến lớn tiếp theo cho các mô hình học máy. Họ cũng giới thiệu phiên bản nhẹ hơn là o1-mini, rẻ hơn 80% so với bản preview.
• Các cơ quan quản lý an ninh và an toàn AI của Anh và Mỹ đã tham gia vào quá trình phát triển o1. OpenAI đã xây dựng một khung an ninh như một tài liệu sống để đánh giá và bảo vệ trước các rủi ro từ các mô hình ngày càng mạnh mẽ.
• Altman khẳng định mô hình không được huấn luyện trên dữ liệu nhạy cảm. Ông tin rằng AI giải quyết vấn đề này sẽ nhanh chóng được người dùng áp dụng, nhưng cũng thừa nhận sẽ mất thời gian để làm quen với cách sử dụng.
• OpenAI đã phát triển o1-mini, một phiên bản nhẹ hơn và rẻ hơn 80% so với bản preview của o1.
• Các cơ quan quản lý an toàn AI của Anh và Mỹ đã tham gia vào quá trình phát triển o1, giúp đảm bảo tính an toàn và bảo mật.
• Altman dự đoán người dùng sẽ cần thời gian để làm quen với cách sử dụng o1, tương tự như khi ChatGPT mới ra mắt.
📌 OpenAI giới thiệu mô hình o1 mới với khả năng suy luận nâng cao, đạt cấp độ 2 trong 5 cấp độ AI. Sam Altman dự đoán bước tiến lớn, vượt trội hơn GPT-4, nhưng thừa nhận người dùng cần thời gian làm quen. An toàn AI được chú trọng với sự tham gia của cơ quan quản lý Anh-Mỹ.
https://readwrite.com/sam-altman-earmarks-a-new-o1-era-for-ai-with-a-steep-improvement-curve/
• Các mô hình ngôn ngữ lớn (LLM) đang được triển khai rộng rãi trong các hệ thống kỹ thuật-xã hội như y tế và giáo dục, nhưng thường mã hóa các chuẩn mực xã hội từ dữ liệu huấn luyện, gây lo ngại về sự phù hợp với kỳ vọng về quyền riêng tư và hành vi đạo đức.
• Thách thức chính là đảm bảo các mô hình này tuân thủ chuẩn mực xã hội trong các bối cảnh, kiến trúc mô hình và bộ dữ liệu khác nhau. Độ nhạy cảm với lời nhắc - khi thay đổi nhỏ trong lời nhắc dẫn đến phản hồi khác nhau - làm phức tạp việc đánh giá.
• Các phương pháp truyền thống tập trung vào khả năng kỹ thuật như độ trôi chảy và độ chính xác, bỏ qua việc mã hóa chuẩn mực xã hội. Một số cách tiếp cận cố gắng đánh giá chuẩn mực riêng tư bằng lời nhắc hoặc bộ dữ liệu cụ thể, nhưng thường không tính đến độ nhạy cảm với lời nhắc.
• Một nhóm nghiên cứu từ Đại học York và Đại học Waterloo giới thiệu LLM-CI, một khung mới dựa trên lý thuyết Tính toàn vẹn theo ngữ cảnh (CI) để đánh giá cách LLM mã hóa chuẩn mực riêng tư trong các bối cảnh khác nhau.
• LLM-CI sử dụng chiến lược đánh giá đa lời nhắc để giảm thiểu độ nhạy cảm với lời nhắc, chọn các lời nhắc tạo ra đầu ra nhất quán trên các biến thể khác nhau. Phương pháp này cũng kết hợp các tình huống thực tế đại diện cho các tình huống nhạy cảm về quyền riêng tư.
• Khung này được thử nghiệm trên các bộ dữ liệu như tình huống IoT và COPPA, mô phỏng các kịch bản riêng tư trong thế giới thực. Đánh giá cũng xem xét ảnh hưởng của siêu tham số và kỹ thuật tối ưu hóa đối với việc tuân thủ chuẩn mực.
• LLM-CI cho thấy cải thiện đáng kể trong việc đánh giá cách LLM mã hóa chuẩn mực riêng tư. Các mô hình được tối ưu hóa bằng kỹ thuật điều chỉnh đạt độ chính xác theo ngữ cảnh lên đến 92% trong việc tuân thủ chuẩn mực riêng tư.
• Phương pháp đánh giá mới dẫn đến tăng 15% tính nhất quán trong phản hồi, xác nhận rằng việc điều chỉnh các thuộc tính mô hình như dung lượng và áp dụng chiến lược điều chỉnh cải thiện đáng kể khả năng của LLM trong việc phù hợp với kỳ vọng của xã hội.
• LLM-CI cung cấp cách tiếp cận toàn diện và mạnh mẽ để đánh giá cách LLM mã hóa chuẩn mực riêng tư bằng cách tận dụng phương pháp đánh giá đa lời nhắc. Nó đại diện cho bước tiến quan trọng hướng tới việc triển khai có đạo đức LLM trong các ứng dụng thực tế.
📌 LLM-CI cải thiện đáng kể việc đánh giá chuẩn mực riêng tư trong AI bằng phương pháp đa lời nhắc. Độ chính xác theo ngữ cảnh đạt 92%, tăng 15% tính nhất quán phản hồi. Đây là bước tiến quan trọng hướng tới triển khai AI có đạo đức trong thực tế.
https://www.marktechpost.com/2024/09/13/llm-ci-a-new-machine-learning-framework-to-assess-privacy-norms-encoded-in-llms/
• Các framework suy luận LLM đã chạm đến "bức tường bộ nhớ" - giới hạn tốc độ do phần cứng áp đặt lên mã bị ràng buộc bởi bộ nhớ.
• Nhà phát triển ứng dụng LLM chỉ cần hiểu bức tường bộ nhớ của hệ thống, chọn framework gần với nó và tiếp tục.
• Các tuyên bố về requests/s và token/s có thể gây hiểu nhầm. Dựa trên MLPerf, kịch bản server và offline sẽ có requests/s cao hơn nhiều so với single stream.
• Lượng tử hóa và thưa thớt là hai phương pháp tối ưu hóa hiệu quả nhất cho deep learning, nhưng cần sử dụng thận trọng vì có thể làm giảm độ chính xác.
• Nên sử dụng các mô hình đã được công bố và xác thực kỹ lưỡng theo định dạng gốc. Ví dụ: Meta công bố Llama 3.1 8B ở định dạng bfloat16 không thưa thớt.
• Bức tường bộ nhớ cho kịch bản Single Stream trên GPU MI250, MI300 và H100 lần lượt là 200, 331 và 209 token/giây.
• MLPerf định nghĩa 4 kịch bản: single-stream, server, offline và multistream. Server và offline cho phép xử lý hàng loạt nên có thể vượt qua bức tường bộ nhớ.
• Các hệ thống suy luận hiện đại sử dụng GPU với bộ nhớ HBM. MI300X hoặc H100 có 192GB hoặc 80GB HBM3, đủ để lưu trữ mô hình 96 tỷ hoặc 40 tỷ tham số ở bfloat16.
• Có thể tăng tốc suy luận bằng cách thay đổi phần cứng như thêm GPU hoặc sử dụng SRAM thay vì DRAM.
• Các hướng nghiên cứu để phá vỡ bức tường bộ nhớ bao gồm: cải tiến lượng tử hóa và thưa thớt, giải mã song song và đầu cơ, thay đổi kiến trúc transformer.
📌 Các framework suy luận LLM đã chạm đến giới hạn bộ nhớ. Nhà phát triển nên chọn framework gần với giới hạn này và tập trung vào ứng dụng. Cần thận trọng khi sử dụng các phương pháp tối ưu hóa để tránh giảm độ chính xác. Nghiên cứu đột phá có thể phá vỡ bức tường bộ nhớ trong tương lai.
https://www.lamini.ai/blog/evaluate-performance-llm-inference-frameworks
• Chatbot Arena, một công cụ đánh giá mô hình AI do tổ chức phi lợi nhuận LMSYS phát triển, đã trở thành tiêu chuẩn phổ biến trong ngành công nghiệp AI.
• LMSYS được thành lập vào tháng 4/2023 bởi các sinh viên và giảng viên từ Carnegie Mellon, UC Berkeley's SkyLab và UC San Diego. Mục tiêu ban đầu là phát triển và mở nguồn các mô hình AI tạo sinh.
• Chatbot Arena cho phép người dùng đặt câu hỏi cho hai mô hình ngẫu nhiên ẩn danh và bình chọn câu trả lời họ thích hơn. Dữ liệu này được sử dụng để xếp hạng các mô hình.
• Công cụ này đã thu hút hơn 1 triệu lượt truy cập trong năm qua và có hơn 54.000 người theo dõi trên X (Twitter).
• Tuy nhiên, các chuyên gia như Yuchen Lin từ Allen Institute for AI và Mike Cook từ Queen Mary University of London đã chỉ ra một số hạn chế:
• Thiếu minh bạch về các khả năng và kỹ năng cụ thể mà Chatbot Arena đang đánh giá.
• Không tính đến khả năng phát hiện ảo giác của người dùng và sự khác biệt trong sở thích cá nhân.
• Cơ sở người dùng hiện tại có thể không đại diện, chủ yếu là người trong ngành công nghệ.
• Các công ty có thể tối ưu hóa mô hình của họ dựa trên dữ liệu sử dụng, tạo ra lợi thế không công bằng.
• LMSYS có mối quan hệ thương mại với một số công ty AI, gây lo ngại về tính khách quan.
• Để cải thiện, các chuyên gia đề xuất:
• Thiết kế các bài kiểm tra theo chủ đề cụ thể để đánh giá có hệ thống hơn.
• Tăng cường minh bạch về phương pháp và dữ liệu.
• Kiểm soát tốt hơn các yếu tố như phong cách và nội dung câu trả lời.
• Mở rộng và đa dạng hóa cơ sở người dùng đánh giá.
📌 Chatbot Arena đã trở thành công cụ đánh giá AI phổ biến nhưng vẫn còn nhiều hạn chế. Các vấn đề chính bao gồm thiếu minh bạch, thiên lệch người dùng và mối quan hệ thương mại. Cần cải thiện phương pháp để đánh giá khách quan và toàn diện hơn về khả năng của các mô hình AI.
https://techcrunch.com/2024/09/05/the-ai-industry-is-obsessed-with-chatbot-arena-but-it-might-not-be-the-best-benchmark/
• MLCommons vừa công bố kết quả MLPerf Inference 4.1 mới nhất, với 964 kết quả hiệu năng được gửi bởi 22 tổ chức.
• Đây là lần đầu tiên GPU Nvidia Blackwell thế hệ mới xuất hiện trong các bài kiểm tra được xác thực.
• MLPerf Inference 4.1 giới thiệu benchmark mới về Mixture of Experts (MoE), sử dụng mô hình Mixtral 8x7B gồm 8 chuyên gia, mỗi chuyên gia có 7 tỷ tham số.
• Benchmark MoE kết hợp 3 tác vụ: trả lời câu hỏi dựa trên bộ dữ liệu Open Orca, suy luận toán học sử dụng bộ dữ liệu GSMK và các tác vụ lập trình sử dụng bộ dữ liệu MBXP.
• Nhiều bộ xử lý và hệ thống mới lần đầu xuất hiện trong đợt benchmark này, bao gồm AMD MI300x, Google TPUv6e (Trillium), Intel Granite Rapids, Untether AI SpeedAI 240 và Nvidia Blackwell B200 GPU.
• Kết quả cho thấy GPU Nvidia Blackwell mang lại hiệu năng cao hơn 4 lần so với thế hệ trước đó trên mỗi GPU đối với workload LLM lớn nhất của MLPerf là Llama 2 70B.
• GPU Nvidia Hopper cũng đạt được cải thiện hiệu năng lên tới 27% so với kết quả 6 tháng trước, chỉ nhờ vào tối ưu hóa phần mềm.
• David Kanter, người sáng lập MLPerf tại MLCommons, nhấn mạnh sự đa dạng và số lượng lớn các hệ thống tham gia benchmark lần này, mang lại nhiều cơ hội so sánh và học hỏi cho ngành công nghiệp.
• Miro Hodak từ AMD giải thích rằng cách tiếp cận MoE cho phép triển khai hiệu quả hơn và chuyên biệt hóa tác vụ, mang lại giải pháp AI linh hoạt và tiết kiệm chi phí hơn cho doanh nghiệp.
• Dave Salvator từ Nvidia chia sẻ đây là lần đầu tiên công bố dữ liệu hiệu năng đo lường của Blackwell, thể hiện sự phấn khích về tiềm năng của GPU thế hệ mới này.
• Các kết quả MLPerf Inference cung cấp cái nhìn toàn diện về cảnh quan phần cứng và phần mềm AI đang phát triển nhanh chóng, giúp các nhà ra quyết định doanh nghiệp đưa ra lựa chọn sáng suốt về đầu tư cơ sở hạ tầng AI.
📌 MLPerf Inference 4.1 đánh dấu bước tiến mới trong hiệu năng AI với sự ra mắt của GPU Nvidia Blackwell mạnh gấp 4 lần thế hệ trước. Benchmark MoE mới và sự cải thiện 27% của GPU Hopper cho thấy tiềm năng to lớn của công nghệ AI trong tương lai gần.
https://venturebeat.com/ai/mlcommons-mlperf-inference-4-1-benchmarks-moe-model-as-nvidia-blackwell-makes-its-testing-debut/
• Weaviate đã giới thiệu StructuredRAG - một tiêu chuẩn đánh giá mới để đánh giá khả năng tạo đầu ra JSON đáng tin cậy của các mô hình ngôn ngữ lớn (LLM) cho các hệ thống AI phức tạp.
• Nghiên cứu tập trung vào việc đánh giá khả năng của LLM trong việc tuân thủ các hướng dẫn định dạng cụ thể cho đầu ra JSON, điều quan trọng để tích hợp các mô hình này vào hệ thống AI phức tạp.
• StructuredRAG bao gồm 6 nhiệm vụ khác nhau để đánh giá khả năng tạo đầu ra có cấu trúc như JSON của LLM.
• Hai mô hình hàng đầu được đánh giá là Gemini 1.5 Pro và Llama 3 8B-instruct.
• Nghiên cứu sử dụng hai chiến lược prompt khác nhau: f-String và Follow the Format (FF) để đo lường khả năng tuân thủ hướng dẫn định dạng phản hồi của các mô hình.
• Tổng cộng 24 thí nghiệm được thực hiện, bao gồm các mức độ phức tạp đầu ra khác nhau từ giá trị chuỗi đơn giản đến các đối tượng tổng hợp phức tạp hơn.
• Kỹ thuật tối ưu hóa prompt OPRO được giới thiệu để cải thiện định dạng phản hồi JSON mà không cần sử dụng phương pháp giải mã có cấu trúc.
• Kết quả cho thấy tỷ lệ thành công trung bình của các mô hình là 82,55% trên tất cả các nhiệm vụ, với sự khác biệt đáng kể dựa trên độ phức tạp của nhiệm vụ.
• 11/24 nhiệm vụ đạt tỷ lệ thành công 100%, trong khi 2 nhiệm vụ có tỷ lệ thành công 25% hoặc thấp hơn.
• Gemini 1.5 Pro vượt trội hơn Llama 3 8B-instruct với tỷ lệ thành công trung bình 93,4% so với 71,7%.
• Cả hai mô hình đều hoạt động tốt trên các nhiệm vụ đơn giản hơn nhưng gặp khó khăn với các đầu ra phức tạp hơn, đặc biệt là những đầu ra liên quan đến danh sách hoặc đối tượng tổng hợp.
• Llama 3 8B-instruct đạt tỷ lệ thành công 0% trong nhiệm vụ yêu cầu đầu ra danh sách chuỗi trong bài kiểm tra ParaphraseQuestions và chỉ đạt 25% trong nhiệm vụ GenerateAnswersWithConfidences khi sử dụng prompt FF.
• Nghiên cứu nhấn mạnh sự cần thiết của việc khám phá các kỹ thuật nâng cao như kết hợp mô hình, cơ chế thử lại và tối ưu hóa prompt để nâng cao độ tin cậy và nhất quán của việc tạo đầu ra có cấu trúc.
📌 StructuredRAG đánh giá khả năng tạo JSON của LLM, với tỷ lệ thành công trung bình 82,55%. Gemini 1.5 Pro vượt trội (93,4%) so với Llama 3 8B-instruct (71,7%). Nghiên cứu nhấn mạnh nhu cầu cải thiện khả năng tạo đầu ra có cấu trúc phức tạp của LLM.
https://www.marktechpost.com/2024/08/26/structuredrag-released-by-weaviate-a-comprehensive-benchmark-to-evaluate-large-language-models-ability-to-generate-reliable-json-outputs-for-complex-ai-systems/
• Các nhà nghiên cứu từ ASUS Intelligent Cloud Services, Imperial College London, Đại học Công nghệ Nanyang và Bệnh viện Tan Tock Seng đã phát triển uMedSum - một khung lai mô-đun nhằm nâng cao độ trung thực và thông tin trong tóm tắt y tế.
• uMedSum giải quyết thách thức cân bằng giữa độ trung thực và thông tin trong tóm tắt y tế trừu tượng, vốn thường phải đánh đổi lẫn nhau.
• Khung này hoạt động bằng cách loại bỏ tuần tự các thông tin bịa đặt và bổ sung thông tin còn thiếu.
• uMedSum vượt trội hơn đáng kể so với các phương pháp dựa trên GPT-4 trước đây, đạt được cải thiện 11,8% trong các chỉ số không tham chiếu.
• Trong các ca phức tạp, bác sĩ ưa thích kết quả của uMedSum gấp 6 lần so với các phương pháp trước đây.
• Nghiên cứu cung cấp một bộ công cụ nguồn mở để thúc đẩy nghiên cứu tóm tắt y tế.
• uMedSum đánh giá 4 phương pháp gần đây, tích hợp các kỹ thuật hiệu quả nhất để tạo tóm tắt ban đầu.
• Khung này sử dụng mô hình Suy luận Ngôn ngữ Tự nhiên (NLI) để phát hiện và loại bỏ thông tin không chính xác.
• Quá trình 3 giai đoạn của uMedSum đảm bảo các bản tóm tắt vừa trung thực vừa đầy đủ thông tin.
• Nghiên cứu đánh giá các phương pháp tóm tắt y tế tiên tiến nhất trên 3 bộ dữ liệu: MIMIC III, MeQSum và ACI-Bench.
• Đánh giá sử dụng cả chỉ số có tham chiếu và không tham chiếu.
• Trong số 4 mô hình được đánh giá (LLaMA3, Gemma, Meditron và GPT-4), GPT-4 liên tục vượt trội hơn các mô hình khác, đặc biệt với học tập trong ngữ cảnh (ICL).
• uMedSum cải thiện đáng kể hiệu suất, đặc biệt trong việc duy trì tính nhất quán và đầy đủ thông tin.
• 7 trong số 10 phương pháp hàng đầu đều tích hợp uMedSum.
• Khung này thiết lập một tiêu chuẩn mới cho tóm tắt y tế chính xác và đầy đủ thông tin.
📌 uMedSum là khung AI mới cải thiện tóm tắt y tế, vượt trội hơn 11,8% so với phương pháp trước đó. Được bác sĩ ưa chuộng gấp 6 lần trong ca phức tạp, uMedSum cân bằng độ trung thực và thông tin, thiết lập tiêu chuẩn mới cho tóm tắt y tế chính xác.
https://www.marktechpost.com/2024/08/26/umedsum-a-novel-ai-framework-for-accurate-and-informative-medical-summarization/
• ArabLegalEval là bộ dữ liệu chuẩn đa nhiệm vụ đầu tiên để đánh giá kiến thức pháp lý tiếng Ả Rập của các mô hình ngôn ngữ lớn (LLM).
• Nghiên cứu này nhằm khắc phục hạn chế của các bộ dữ liệu đánh giá pháp lý hiện có chủ yếu tập trung vào tiếng Anh như MMLU và LegalBench.
• ArabLegalEval sử dụng các tài liệu pháp lý của Saudi Arabia làm nguồn dữ liệu, tạo ra bối cảnh phù hợp hơn cho người dùng nói tiếng Ả Rập.
• Bộ dữ liệu gồm 10.583 câu hỏi trắc nghiệm được tạo ra bằng 3 phương pháp: Chuyển đổi QA thành MCQ, Chuỗi suy luận và Học trong ngữ cảnh dựa trên truy xuất.
• Quá trình tạo câu hỏi được thực hiện với sự tham vấn của các chuyên gia pháp lý để đảm bảo chất lượng và độ chính xác.
• Phương pháp đánh giá bao gồm các chỉ số Rouge cho chất lượng dịch thuật và đánh giá khả năng suy luận của mô hình.
• Kết quả cho thấy việc tối ưu hóa prompt few-shot và sử dụng chuỗi suy luận cải thiện đáng kể hiệu suất của LLM trên các câu hỏi MCQ.
• Các mô hình nhỏ hơn thể hiện hiệu suất tốt hơn khi sử dụng mô hình giáo viên tự nhân bản trong kịch bản few-shot.
• Nghiên cứu nhấn mạnh tầm quan trọng của việc phát triển các phương pháp đánh giá chuyên biệt cho kiến thức pháp lý tiếng Ả Rập trong LLM.
• Các phát hiện chỉ ra nhu cầu cần có các phương pháp đánh giá tinh vi hơn để nắm bắt chính xác khả năng xử lý ngôn ngữ pháp lý phức tạp của LLM.
• Nghiên cứu đề xuất mở rộng phạm vi của bộ dữ liệu trong tương lai bằng cách bổ sung thêm các tài liệu pháp lý của Saudi Arabia.
📌 ArabLegalEval là bộ dữ liệu chuẩn 10.583 câu hỏi MCQ đầu tiên đánh giá kiến thức pháp lý tiếng Ả Rập của LLM. Kết quả cho thấy tầm quan trọng của việc tối ưu hóa prompt và suy luận chuỗi, đồng thời nhấn mạnh nhu cầu phát triển phương pháp đánh giá chuyên biệt cho lĩnh vực này.
https://www.marktechpost.com/2024/08/19/arablegaleval-a-multitask-ai-benchmark-dataset-for-assessing-the-arabic-legal-knowledge-of-llms/
• Các nhà nghiên cứu đã phát triển một hệ thống phân loại rủi ro AI cùng với một benchmark để đánh giá mức độ vi phạm quy tắc của các mô hình ngôn ngữ lớn khác nhau.
• Nhóm nghiên cứu đã phân tích các quy định và hướng dẫn về AI của chính phủ Mỹ, Trung Quốc và EU, cũng như nghiên cứu chính sách sử dụng của 16 công ty AI lớn trên toàn cầu.
• Họ đã xây dựng AIR-Bench 2024, một benchmark sử dụng hàng nghìn prompt để đánh giá hiệu suất của các mô hình AI phổ biến về các rủi ro cụ thể.
• Kết quả cho thấy Claude 3 Opus của Anthropic xếp hạng cao trong việc từ chối tạo ra các mối đe dọa an ninh mạng, trong khi Gemini 1.5 Pro của Google xếp hạng cao về tránh tạo ra hình ảnh khỏa thân không được đồng ý.
• DBRX Instruct của Databricks có điểm số thấp nhất trên toàn bộ các tiêu chí đánh giá.
• Phân tích cũng cho thấy các quy định của chính phủ ít toàn diện hơn so với chính sách của các công ty, cho thấy còn nhiều dư địa để thắt chặt quy định.
• Một số mô hình AI không tuân thủ hoàn toàn chính sách của công ty phát triển chúng, cho thấy còn nhiều cơ hội cải thiện.
• Các nhà nghiên cứu khác tại MIT đã tạo ra một cơ sở dữ liệu về các mối nguy hiểm AI, tổng hợp từ 43 khung rủi ro AI khác nhau.
• Hơn 70% các khung rủi ro đề cập đến vấn đề quyền riêng tư và bảo mật, nhưng chỉ khoảng 40% đề cập đến thông tin sai lệch.
• Công ty của Bo Li gần đây đã phân tích phiên bản lớn nhất và mạnh mẽ nhất của mô hình Llama 3.1 của Meta. Kết quả cho thấy mặc dù mô hình có khả năng hơn, nhưng không an toàn hơn nhiều.
• Các nỗ lực phân loại và đo lường rủi ro AI sẽ cần phải phát triển cùng với sự tiến bộ của AI.
• Việc hiểu rõ bối cảnh rủi ro cũng như ưu nhược điểm của các mô hình cụ thể có thể trở nên ngày càng quan trọng đối với các công ty muốn triển khai AI trên một số thị trường hoặc cho một số trường hợp sử dụng nhất định.
📌 Nghiên cứu xếp hạng rủi ro AI cho thấy sự khác biệt lớn giữa các mô hình, với Claude 3 Opus và Gemini 1.5 Pro đứng đầu về an toàn, trong khi DBRX Instruct xếp cuối. Quy định chính phủ còn kém toàn diện hơn chính sách công ty, cho thấy cần thắt chặt quy định. Một số mô hình vi phạm chính sách của chính công ty phát triển, đòi hỏi cải thiện an toàn AI.
https://www.wired.com/story/ai-models-risk-rank-studies/
• Primate Labs vừa ra mắt Geekbench AI phiên bản 1.0, một công cụ benchmark mới để đánh giá hiệu năng xử lý AI của CPU, GPU và NPU.
• Geekbench AI là phiên bản nâng cấp từ dự án thử nghiệm Geekbench ML, được đổi tên nhằm tận dụng xu hướng AI đang phát triển mạnh mẽ.
• Công cụ này đo lường cả tốc độ và độ chính xác của các tác vụ AI, phù hợp với nhu cầu đánh giá hiệu năng xử lý AI cục bộ ngày càng tăng.
• Geekbench AI hỗ trợ nhiều framework AI khác nhau như OpenVINO, ONNX, QNN, CoreML và các framework riêng của các nhà sản xuất.
• Benchmark có thể chạy trên CPU, GPU hoặc NPU (nếu thiết bị tương thích). Trên Windows, hiện mới hỗ trợ NPU của Intel và Qualcomm, chưa hỗ trợ AMD.
• Công cụ này có sẵn cho Windows, macOS, Linux, iOS/iPadOS và Android. Phiên bản miễn phí đã đủ dùng, bản Pro có thêm một số tính năng nâng cao.
• Geekbench AI đánh giá hiệu năng với nhiều mức độ chính xác khác nhau: single-precision, half-precision và quantized data.
• Primate Labs cam kết sẽ cập nhật thường xuyên để hỗ trợ phần cứng, framework và workload mới khi thị trường AI phát triển.
• Việc ra mắt Geekbench AI đáp ứng nhu cầu đo lường hiệu năng NPU, khi các chip của Intel và AMD đã tích hợp NPU tiêu chuẩn.
• Xu hướng xử lý AI cục bộ trên thiết bị thay vì trên đám mây đang gia tăng, đòi hỏi các công cụ benchmark phù hợp.
• Microsoft cũng đang thúc đẩy sáng kiến Copilot+, trong khi Intel, AMD, Qualcomm và Apple đều nỗ lực cải thiện hiệu năng NPU.
📌 Geekbench AI 1.0 ra mắt như một công cụ benchmark toàn diện cho hiệu năng xử lý AI, hỗ trợ đa nền tảng và framework. Đáp ứng nhu cầu đánh giá NPU ngày càng phổ biến, Primate Labs cam kết cập nhật liên tục để theo kịp sự phát triển nhanh chóng của công nghệ AI.
https://arstechnica.com/gadgets/2024/08/geekbench-ml-becomes-geekbench-ai-a-cross-platform-performance-test-for-npus-and-more/
• Các nhà nghiên cứu tại Apple đã giới thiệu ToolSandbox, một tiêu chuẩn đánh giá mới nhằm đánh giá toàn diện hơn khả năng của các trợ lý AI trong thế giới thực.
• ToolSandbox bao gồm 3 yếu tố quan trọng thường thiếu trong các tiêu chuẩn đánh giá khác: tương tác có trạng thái, khả năng hội thoại và đánh giá động.
• Tiêu chuẩn mới này nhằm mô phỏng các tình huống thực tế chặt chẽ hơn. Ví dụ, nó có thể kiểm tra xem một trợ lý AI có hiểu rằng cần bật dịch vụ di động của thiết bị trước khi gửi tin nhắn văn bản hay không.
• Các nhà nghiên cứu đã thử nghiệm nhiều mô hình AI khác nhau bằng ToolSandbox, cho thấy khoảng cách đáng kể về hiệu suất giữa các mô hình độc quyền và nguồn mở.
• Phát hiện này thách thức các báo cáo gần đây cho rằng AI nguồn mở đang nhanh chóng bắt kịp các hệ thống độc quyền.
• Nghiên cứu của Apple cho thấy ngay cả các trợ lý AI tiên tiến nhất cũng gặp khó khăn với các tác vụ phức tạp liên quan đến phụ thuộc trạng thái, chuẩn hóa và các tình huống thiếu thông tin.
• Thú vị là nghiên cứu phát hiện ra rằng các mô hình lớn hơn đôi khi hoạt động kém hơn các mô hình nhỏ hơn trong một số tình huống nhất định, đặc biệt là những tình huống liên quan đến phụ thuộc trạng thái.
• Việc giới thiệu ToolSandbox có thể có tác động sâu rộng đến việc phát triển và đánh giá các trợ lý AI. Bằng cách cung cấp môi trường kiểm tra thực tế hơn, nó có thể giúp các nhà nghiên cứu xác định và giải quyết các hạn chế chính trong các hệ thống AI hiện tại.
• Nhóm nghiên cứu đã thông báo rằng khung đánh giá ToolSandbox sẽ sớm được phát hành trên Github, mời cộng đồng AI rộng lớn hơn xây dựng và tinh chỉnh công trình quan trọng này.
• Mặc dù các phát triển gần đây trong AI nguồn mở đã tạo ra sự phấn khích về việc dân chủ hóa quyền truy cập vào các công cụ AI tiên tiến, nghiên cứu của Apple nhắc nhở rằng vẫn còn những thách thức đáng kể trong việc tạo ra các hệ thống AI có khả năng xử lý các tác vụ phức tạp trong thế giới thực.
📌 Apple giới thiệu ToolSandbox, tiêu chuẩn đánh giá mới cho trợ lý AI. Kết quả cho thấy khoảng cách lớn giữa mô hình độc quyền và nguồn mở. Các mô hình lớn hơn không phải lúc nào cũng hoạt động tốt hơn trong các tác vụ phức tạp. ToolSandbox sẽ sớm được phát hành trên Github để cộng đồng AI tiếp tục phát triển.
https://venturebeat.com/ai/apple-toolsandbox-reveals-open-source-ai-behind-proprietary-models/
- RAGEval là một khung AI được phát triển để tự động tạo ra các tập dữ liệu đánh giá cho các mô hình ngôn ngữ lớn (LLM), nhằm kiểm tra khả năng sử dụng kiến thức trong nhiều lĩnh vực khác nhau.
- Khung này được giới thiệu bởi các nhà nghiên cứu từ Đại học Tsinghua, Đại học Bắc Kinh, Học viện Khoa học Trung Quốc và Đại học Northeastern.
- Một trong những thách thức lớn trong xử lý ngôn ngữ tự nhiên (NLP) là hiện tượng "hallucination", nơi mà các mô hình tạo ra thông tin không chính xác hoặc vô nghĩa.
- Hệ thống Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) đã được giới thiệu để giảm thiểu vấn đề này bằng cách tích hợp thông tin từ bên ngoài.
- Tuy nhiên, các tiêu chuẩn hiện tại chủ yếu tập trung vào kiến thức chung và cần cải thiện để đánh giá hiệu suất của các mô hình RAG trong các lĩnh vực chuyên biệt như tài chính, y tế và pháp lý.
- RAGEval sử dụng quy trình "schema-configuration-document-QAR-keypoint" để đảm bảo độ tin cậy của quá trình đánh giá, bắt đầu từ việc tóm tắt một sơ đồ từ các tài liệu gốc.
- Khung này tạo ra các tài liệu đa dạng và xây dựng các cặp câu hỏi-trả lời dựa trên các cấu hình đã tạo ra.
- Các tài liệu này được sử dụng để đánh giá phản hồi của mô hình dựa trên các chỉ số mới tập trung vào độ chính xác thực tế.
- Phương pháp kết hợp giữa quy tắc và LLM được sử dụng để tạo ra các cấu hình, đảm bảo tính chính xác và tính nhất quán cao, đặc biệt cho dữ liệu có cấu trúc.
- Kết quả thử nghiệm cho thấy RAGEval rất hiệu quả trong việc tạo ra nội dung chính xác và phong phú trên nhiều lĩnh vực khác nhau.
- Kết quả đánh giá của con người cho thấy các tài liệu được tạo ra rõ ràng, cụ thể và gần giống với tài liệu thực tế.
- Mô hình GPT-4o đạt điểm Completeness cao nhất với 0.5187 cho tiếng Trung và 0.6845 cho tiếng Anh, trong khi các mô hình nguồn mở như Qwen1.5-14B-chat và Llama3-8B-Instruct cũng có điểm số cạnh tranh.
- RAGEval mang lại giải pháp mạnh mẽ cho việc đánh giá các hệ thống RAG, cải thiện độ tin cậy của các mô hình trong nhiều ngành công nghiệp và mở đường cho những cải tiến trong tương lai.
📌 RAGEval là khung đánh giá tiên tiến cho các mô hình RAG, cho thấy hiệu quả cao trong việc tạo ra dữ liệu đánh giá chính xác và phong phú. GPT-4o đạt điểm Completeness cao nhất, cho thấy tiềm năng của các mô hình nguồn mở trong việc thu hẹp khoảng cách hiệu suất.
https://www.marktechpost.com/2024/08/09/rageval-an-ai-framework-for-automatically-generating-evaluation-datasets-to-evaluate-the-knowledge-usage-ability-of-different-llms-in-different-scenarios/
- OpenAI đã phát hành thẻ hệ thống cho mô hình AI mới nhất, có thể là ChatGPT 5, với tên gọi "Strawberry".
- Mô hình Strawberry được cho là engine lý luận thế hệ tiếp theo, hứa hẹn khả năng giải quyết vấn đề logic tốt hơn.
- Thẻ hệ thống cung cấp cái nhìn sâu sắc về các chức năng, ứng dụng tiềm năng và giới hạn của mô hình mới.
- Cộng đồng AI đang háo hức theo dõi hiệu suất của Strawberry trong các tình huống thực tế để xem liệu nó có đạt được khả năng lý luận tương đương con người hay không.
- OpenAI cũng giới thiệu mô hình "Sus Column R", nổi bật với khả năng lý luận và tạo mã nâng cao, phục vụ cho các nhà phát triển và nghiên cứu.
- Mô hình mới được thiết kế để tương tác hiệu quả với người dùng, cung cấp phản hồi chính xác và phù hợp.
- Khả năng lý luận của các mô hình mới tập trung vào việc giải quyết các vấn đề logic phức tạp và thể hiện chức năng nhận thức nâng cao.
- Việc đạt được "Cấp độ 2" trong phát triển AI có thể có tác động sâu rộng đến nhiều lĩnh vực, từ dịch vụ khách hàng tự động đến quy trình ra quyết định phức tạp.
- Cộng đồng AI đang thảo luận về những khả năng mới, bao gồm lý luận tinh vi hơn và giao tiếp nâng cao.
- Mặc dù sự phát triển AI mang lại nhiều cơ hội, nhưng cũng cần cân nhắc đến các vấn đề an toàn và quản lý có trách nhiệm.
📌 OpenAI đã công bố mô hình Strawberry và Sus Column R với khả năng lý luận và giao tiếp tiên tiến, đánh dấu một bước tiến lớn trong nghiên cứu AI. Mô hình mới này có thể đạt được khả năng lý luận tương đương con người, mở ra nhiều ứng dụng tiềm năng trong tương lai.
https://www.geeky-gadgets.com/openai-chatgpt-5-cryptic-system-card/
• Google Cloud đã giới thiệu dịch vụ đánh giá AI tạo sinh mới trên nền tảng Vertex AI, nhằm giúp doanh nghiệp xác định liệu một mô hình ngôn ngữ lớn (LLM) có phù hợp cho một trường hợp sử dụng cụ thể hay không.
• Dịch vụ này cũng hiệu quả trong việc hạn chế ảo giác - những phản hồi hoặc kết quả sai lệch mà LLM có thể tạo ra khi đầu vào trở nên phức tạp.
• Dịch vụ cung cấp hai chức năng chính: Đánh giá điểm (Pointwise) và Đánh giá cặp (Pairwise).
• Đánh giá điểm giúp người dùng hiểu mô hình hoạt động tốt như thế nào cho trường hợp sử dụng cụ thể của họ. Nó có hai chế độ:
- Chế độ nhanh: cho phép người dùng tinh chỉnh chất lượng prompt thông qua quy trình tương tác thời gian thực.
- Chế độ pipeline: cho phép đánh giá kỹ lưỡng hơn bằng cách sử dụng bộ dữ liệu ground truth lớn hơn.
• Đánh giá cặp giúp so sánh hai mô hình với nhau, sử dụng cả phương pháp dựa trên autorater và dựa trên ground truth.
• Google sử dụng các mô hình LLM độc quyền như Gemini hoặc PaLM làm autorater để đánh giá.
• Dịch vụ này có thể giúp doanh nghiệp tránh các lỗi kinh doanh tốn kém do sử dụng mô hình chưa được kiểm tra kỹ lưỡng.
• Mục tiêu dài hạn của dịch vụ là hỗ trợ đánh giá trong toàn bộ vòng đời phát triển AI tạo sinh, từ lựa chọn mô hình nền tảng đến tùy chỉnh.
• Các đối thủ cạnh tranh của Google như AWS và Microsoft cũng đang cung cấp các công cụ đánh giá AI tạo sinh tương tự:
- AWS cung cấp khả năng đánh giá mô hình trong Amazon Bedrock và thư viện đánh giá LLM mã nguồn mở FMEval.
- Microsoft cung cấp tính năng đánh giá hiệu suất mô hình trong Azure AI Studio.
📌 Google Cloud ra mắt dịch vụ đánh giá AI tạo sinh mới trên Vertex AI, giúp doanh nghiệp chọn LLM phù hợp và hạn chế ảo giác. Dịch vụ cung cấp đánh giá điểm và cặp, sử dụng autorater như Gemini. AWS và Microsoft cũng có công cụ tương tự trên nền tảng của họ.
https://www.infoworld.com/article/3483406/what-is-google-clouds-generative-ai-evaluation-service.html
• Google AI và Đại học Tel Aviv đã phát triển CoverBench - một bộ benchmark mới nhằm đánh giá khả năng xác minh các tuyên bố phức tạp của mô hình ngôn ngữ (LM) trong nhiều lĩnh vực và loại hình suy luận khác nhau.
• CoverBench giải quyết những hạn chế của các phương pháp hiện có bằng cách cung cấp định dạng thống nhất và bộ 733 ví dụ đa dạng đòi hỏi suy luận phức tạp, bao gồm hiểu ngữ cảnh dài, suy luận nhiều bước và phân tích định lượng.
• Benchmark này bao gồm các tập dữ liệu từ 9 nguồn khác nhau như FinQA, QRData, TabFact, MultiHiertt, HybridQA, ContractNLI, PubMedQA, TACT và Feverous, bao quát nhiều lĩnh vực như tài chính, Wikipedia, y sinh, pháp lý và thống kê.
• CoverBench chuyển đổi các tác vụ hỏi đáp thành các tuyên bố khai báo, chuẩn hóa biểu diễn bảng và tạo ra các ví dụ phủ định bằng cách sử dụng các mô hình như GPT-4.
• Bộ dữ liệu cuối cùng chứa các ngữ cảnh đầu vào dài, trung bình 3.500 token, thách thức khả năng của các mô hình hiện tại.
• Kết quả đánh giá cho thấy các LM cạnh tranh hiện nay gặp khó khăn đáng kể với các tác vụ được trình bày, đạt hiệu suất gần với baseline ngẫu nhiên trong nhiều trường hợp.
• Mô hình hoạt động tốt nhất như Gemini 1.5 Pro đạt điểm Macro-F1 là 62,1, cho thấy vẫn còn nhiều dư địa để cải thiện.
• Ngược lại, các mô hình như Gemma-1.1-7b-it hoạt động kém hơn nhiều, nhấn mạnh độ khó của benchmark này.
• CoverBench đặt ra một tiêu chuẩn mới cho việc xác minh tuyên bố, thúc đẩy ranh giới của những gì LM có thể đạt được trong các tác vụ suy luận phức tạp.
📌 Google AI và Đại học Tel Aviv đã phát triển CoverBench - bộ benchmark thách thức gồm 733 ví dụ đa dạng để đánh giá khả năng xác minh tuyên bố phức tạp của mô hình ngôn ngữ. Kết quả cho thấy ngay cả các mô hình tốt nhất như Gemini 1.5 Pro cũng chỉ đạt điểm Macro-F1 62,1, cho thấy còn nhiều dư địa cải thiện trong lĩnh vực này.
https://www.marktechpost.com/2024/08/08/google-ai-introduces-coverbench-a-challenging-benchmark-focused-on-verifying-language-model-lm-outputs-in-complex-reasoning-settings/
• Các nhà nghiên cứu từ Meta FAIR, Đại học California, Berkeley và Đại học New York đã giới thiệu phương pháp Meta-Rewarding nhằm cải thiện khả năng tuân theo hướng dẫn của mô hình ngôn ngữ lớn (LLM).
• Phương pháp này bổ sung vai trò thứ ba là meta-judge, bên cạnh hai vai trò actor và judge hiện có. Meta-judge đánh giá các phán đoán của mô hình thông qua cơ chế LLM-as-a-Meta-Judge.
• Meta-Rewarding tạo ra dữ liệu huấn luyện với các cặp phán đoán ưu tiên, ngoài các ưu tiên tiêu chuẩn giữa các phản hồi của actor. Điều này giúp cải thiện cả kỹ năng hành động và đánh giá của mô hình.
• Phương pháp được phát triển dựa trên mô hình Llama-3-8B-Instruct đã được tinh chỉnh theo hướng dẫn. Các nhà nghiên cứu thực hiện tinh chỉnh có giám sát (SFT) trên bộ dữ liệu Evaluation Fine-Tuning (EFT).
• Quá trình lặp lại Meta-Rewarding sử dụng 20.000 câu nhắc được tạo bởi Llama-2-70B-Chat. Mỗi lần lặp lấy mẫu 5.000 câu nhắc từ tập này, thực hiện 4 lần lặp.
• Kết quả đánh giá cho thấy tỷ lệ chiến thắng có kiểm soát độ dài tăng từ 22,9% lên 39,4% trên AlpacaEval, vượt trội hơn cả GPT-4-0314.
• Meta-Rewarding cũng vượt trội hơn phương pháp Self-Rewarding tiêu chuẩn nâng cao, với tỷ lệ chiến thắng 35,5%.
• Trên benchmark Arena-Hard, sau 4 lần lặp, Meta-Rewarding đạt được mức tăng 8,5% so với điểm 20,6% của mô hình gốc.
• Phương pháp này cũng bao gồm một kỹ thuật kiểm soát độ dài mới để giải quyết vấn đề bùng nổ độ dài trong quá trình huấn luyện phản hồi AI.
• Khả năng đánh giá của mô hình phù hợp hơn với đánh giá của con người và các mô hình AI tiên tiến như GPT-4.
• Một hạn chế được đề cập là hệ thống đánh giá 5 điểm đôi khi dẫn đến kết quả hòa do sự khác biệt tối thiểu về chất lượng phản hồi.
📌 Meta-Rewarding là kỹ thuật mới giúp LLM tự cải thiện khả năng tuân theo hướng dẫn, vượt trội hơn các phương pháp truyền thống. Kết quả trên AlpacaEval tăng từ 22,9% lên 39,4%, vượt qua cả GPT-4. Phương pháp này hứa hẹn giải quyết thách thức "Super Alignment" trong tương lai.
https://www.marktechpost.com/2024/08/07/meta-rewarding-llms-a-self-improving-alignment-technique-where-the-llm-judges-its-own-judgements-and-uses-the-feedback-to-improve-its-judgment-skills/
• Lasso Security đã phát triển Kiểm soát truy cập dựa trên ngữ cảnh (CBAC) để giải quyết các thách thức về bảo mật trong các mô hình ngôn ngữ lớn (LLM) và khung tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG).
• CBAC đánh giá động ngữ cảnh của tất cả các yêu cầu truy cập đến LLM, bao gồm truy cập, phản hồi, tương tác, hành vi và yêu cầu sửa đổi dữ liệu.
• Mục tiêu là đảm bảo chỉ người dùng được ủy quyền mới có thể truy cập thông tin cụ thể, ngăn chặn việc tiết lộ thông tin nhạy cảm từ LLM.
• CBAC vượt trội hơn các phương pháp truyền thống như Kiểm soát truy cập dựa trên vai trò (RBAC) và Kiểm soát truy cập dựa trên thuộc tính (ABAC) về tính linh hoạt và khả năng mở rộng.
• Ophir Dror, đồng sáng lập và CPO của Lasso Security, nhấn mạnh CBAC tập trung vào cấp độ kiến thức thay vì mẫu hoặc thuộc tính, đảm bảo độ chính xác và bảo mật cao hơn.
• CBAC được thiết kế để hoạt động độc lập hoặc kết nối với các sản phẩm khác của Lasso Security, có thể tích hợp với Active Directory hoặc sử dụng độc lập với cài đặt tối thiểu.
• Hệ thống sử dụng các thuật toán học máy có giám sát để liên tục học hỏi và thích ứng dựa trên các hiểu biết ngữ cảnh từ mẫu hành vi người dùng và dữ liệu lịch sử.
• CBAC giải quyết các thách thức bảo mật trong RAG, bao gồm vấn đề về quyền truy cập và khó khăn trong việc đào tạo LLM với dữ liệu mới.
• Với việc RAG trở thành nền tảng cho chiến lược LLM và AI rộng lớn hơn của các tổ chức, trí thông minh ngữ cảnh sẽ là điểm then chốt trong việc bảo vệ và mở rộng quy mô mà không ảnh hưởng đến hiệu suất.
📌 Lasso Security đã phát triển CBAC để bảo vệ LLM và RAG, đánh giá động ngữ cảnh của mọi yêu cầu truy cập. CBAC vượt trội hơn RBAC và ABAC về tính linh hoạt, sử dụng học máy để liên tục thích ứng, giải quyết các thách thức bảo mật trong RAG và LLM.
https://venturebeat.com/security/lasso-security-sets-new-standard-in-llm-safety-with-context-based-access-controls/
• OpenAI đã tạo ra một thang đo gồm 5 cấp độ để đánh giá sự tiến bộ của các hệ thống AI của họ.
• Hiện tại, ChatGPT và các chatbot tương tự vẫn đang ở cấp độ 1, có khả năng tương tác với con người bằng ngôn ngữ đàm thoại.
• Công ty cho biết họ đang tiến tới cấp độ 2, nơi AI có thể giải quyết các vấn đề cơ bản giống như một người có bằng tiến sĩ mà không cần sử dụng công cụ hỗ trợ.
• Cấp độ 3 được định nghĩa là các agent AI có thể thực hiện hành động thay mặt con người trong nhiều ngày.
• Ở cấp độ 4, hệ thống AI sẽ có khả năng tạo ra những đổi mới mới mà không phụ thuộc vào ý tưởng hiện có.
• Cấp độ cao nhất là cấp 5, đạt tới trí tuệ nhân tạo tổng quát (AGI). Ở cấp độ này, AI có thể thực hiện công việc tốt hơn con người và có khả năng làm việc của cả một tổ chức.
• Sam Altman, CEO của OpenAI, tin rằng công ty có thể đạt được AGI trong vòng 4-5 năm tới, trước năm 2030.
• OpenAI kỳ vọng AI có thể cải thiện nền kinh tế toàn cầu, mở rộng kiến thức khoa học và nâng cao chất lượng cuộc sống cho hàng tỷ người.
• Tuy nhiên, vẫn còn nhiều lo ngại nghiêm trọng về độ tin cậy, an toàn, đạo đức và việc thay thế lao động của AI.
• Nhiều công việc đã bị loại bỏ ngay từ cấp độ 1 do AI, và có thể sẽ còn khan hiếm hơn khi công nghệ phát triển.
• AI vẫn chưa chứng minh được độ tin cậy đủ cao cho mọi tác vụ.
• Các chính phủ đang bắt đầu chú ý đến những vấn đề này. Một số quốc gia đã cấm Meta sử dụng dữ liệu người dùng từ các nền tảng của họ để huấn luyện thuật toán AI.
📌 OpenAI tiết lộ thang đo 5 cấp độ AI, hiện đang ở mức 1 và sắp đạt mức 2. Mục tiêu đạt AGI trước 2030 mở ra cơ hội cải thiện kinh tế và khoa học, nhưng cũng gây lo ngại về an toàn và thay thế lao động. Các chính phủ bắt đầu quan tâm điều tiết.
https://betechwise.com/openai-says-ai-is-reaching-level-2-maximum-5/
• Apple vừa công bố tiêu chuẩn đánh giá mới có tên Massive Multitask Agent Understanding (MMAU) nhằm đánh giá khả năng của các mô hình ngôn ngữ lớn (LLM) trên nhiều lĩnh vực khác nhau.
• MMAU đánh giá 5 khả năng chính của LLM: hiểu, lập luận, lập kế hoạch, giải quyết vấn đề và tự sửa lỗi. Nó bao gồm 5 lĩnh vực: sử dụng công cụ, trả lời câu hỏi đồ thị có hướng không chu trình, lập trình khoa học dữ liệu và học máy, lập trình cấp độ cuộc thi, và toán học.
• Tiêu chuẩn này gồm 20 bài kiểm tra được thiết kế cẩn thận với hơn 3.000 câu hỏi riêng biệt, cung cấp đánh giá chi tiết hơn về khả năng của LLM so với các tiêu chuẩn hiện có.
• Mục tiêu của MMAU là cung cấp cái nhìn sâu sắc về nguồn gốc của các lỗi mô hình bằng cách cô lập và kiểm tra các kỹ năng cụ thể.
• Kết quả đánh giá 18 mô hình trên MMAU cho thấy các mô hình thương mại như GPT-4 liên tục vượt trội hơn các mô hình nguồn mở trên nhiều lĩnh vực khác nhau.
• Các mô hình thể hiện mức độ thành thạo khác nhau ở các khả năng khác nhau - giải quyết vấn đề dễ đạt được hơn, trong khi tự sửa lỗi gây ra thách thức đáng kể cho nhiều mô hình.
• Lập kế hoạch chất lượng cao cũng giúp cải thiện hiệu suất của tất cả các mô hình trong các bài toán toán học.
• Điều thú vị là các mô hình lớn hơn không phải lúc nào cũng hoạt động tốt hơn, nhấn mạnh tầm quan trọng của chiến lược đào tạo và kiến trúc mô hình.
• Các nhà nghiên cứu nhấn mạnh rằng MMAU được thiết kế để bổ sung, không thay thế các đánh giá tương tác hiện có. Họ thừa nhận những hạn chế trong phạm vi hiện tại và kêu gọi nghiên cứu trong tương lai để mở rộng sang nhiều lĩnh vực hơn và tinh chỉnh các phương pháp phân tích khả năng.
• Bằng cách cung cấp một khung đánh giá toàn diện và chi tiết, MMAU nhằm thúc đẩy tiến bộ trong việc phát triển các tác nhân AI có khả năng và toàn diện hơn.
• Các bộ dữ liệu và tập lệnh đánh giá đã được công bố công khai để tạo điều kiện cho nghiên cứu sâu hơn trong lĩnh vực này.
• Gần đây, Apple cũng giới thiệu LazyLLM, một kỹ thuật mới nhằm cải thiện hiệu quả suy luận của mô hình ngôn ngữ lớn. Phương pháp này tìm cách tăng tốc quá trình tạo phản hồi trong các mô hình ngôn ngữ dựa trên transformer trong khi vẫn duy trì độ chính xác.
📌 Apple ra mắt MMAU - tiêu chuẩn đánh giá mới cho LLM với 20 bài kiểm tra và 3.000+ câu hỏi. GPT-4 vượt trội hơn mô hình nguồn mở. MMAU đánh giá 5 khả năng chính trên 5 lĩnh vực, nhằm xác định nguồn gốc lỗi mô hình và thúc đẩy phát triển AI toàn diện hơn.
https://analyticsindiamag.com/ai-news-updates/apple-unveils-mmau-a-new-benchmark-for-evaluating-language-model-agents-across-diverse-domains/
• AI AlphaProof của Google DeepMind đã đạt được điểm số tương đương huy chương bạc tại Kỳ thi Olympic Toán quốc tế (IMO) 2024, đây là lần đầu tiên một hệ thống AI đạt thành tích cao như vậy tại cuộc thi danh giá này.
• AlphaProof trả lời đúng 4/6 câu hỏi, đạt 28/42 điểm, chỉ kém 1 điểm so với ngưỡng huy chương vàng năm nay. Tại cuộc thi ở Bath, Anh, có 58 thí sinh đoạt huy chương vàng và 123 thí sinh đoạt huy chương bạc.
• AlphaProof là phiên bản cải tiến của AlphaGeometry, có thể giải quyết nhiều bài toán hơn trong các lĩnh vực như lý thuyết số, đại số và tổ hợp.
• Hệ thống này hoạt động dựa trên phương pháp học tăng cường, tương tự như các AI trước đây của DeepMind đã đánh bại con người trong cờ vua và cờ vây.
• Để vượt qua rào cản ngôn ngữ, nhóm nghiên cứu đã sử dụng Gemini AI của Google để dịch các bài toán từ tiếng Anh sang ngôn ngữ lập trình Lean.
• AlphaProof mất tới 3 ngày để tìm ra một số lời giải, so với thời gian 4,5 giờ cho mỗi 3 câu hỏi mà thí sinh được phép làm bài.
• Hệ thống này vẫn chưa thể giải quyết được các bài toán tổ hợp, nhóm nghiên cứu đang tìm hiểu nguyên nhân để cải thiện.
• Mặc dù ấn tượng, vẫn chưa rõ AlphaProof đi đến lời giải như thế nào hoặc liệu nó có sử dụng trực giác toán học giống con người hay không.
• Công ty giao dịch XTX Markets đã đưa ra giải thưởng 5 triệu USD cho một hệ thống AI có thể đạt huy chương vàng tại IMO, nhưng AlphaProof không đủ điều kiện vì không được công bố rộng rãi.
• Các chuyên gia cho rằng đây là một cột mốc quan trọng trong lĩnh vực AI toán học, nhưng lưu ý rằng hệ thống này vẫn chưa thể giúp xác định các vấn đề cần giải quyết, một phần quan trọng trong công việc của các nhà toán học.
• Nhóm nghiên cứu hy vọng AlphaProof có thể giúp cải thiện các mô hình ngôn ngữ lớn như Gemini bằng cách giảm các phản hồi không chính xác.
📌 AI AlphaProof của Google DeepMind đã đạt thành tích ngang tầm huy chương bạc tại Olympic Toán quốc tế 2024, chỉ kém 1 điểm so với ngưỡng vàng. Đây là bước tiến quan trọng trong lĩnh vực AI toán học, mở ra tiềm năng ứng dụng trong nghiên cứu và cải thiện các mô hình ngôn ngữ lớn.
https://www.newscientist.com/article/2441450-deepmind-ai-gets-silver-medal-at-international-mathematical-olympiad/
• AWS vừa công bố AuditLLM, một công cụ mới giúp đánh giá toàn diện các mô hình ngôn ngữ lớn (LLM) về nhiều khía cạnh như hiệu suất, độ chính xác và tính công bằng.
• AuditLLM sử dụng phương pháp tiếp cận đa thăm dò (multiprobe approach) để kiểm tra LLM trên nhiều khía cạnh khác nhau chỉ trong một lần chạy duy nhất.
• Công cụ này có thể phát hiện các lỗ hổng tiềm ẩn trong LLM như thành kiến, độc hại và các vấn đề về bảo mật.
• AuditLLM cung cấp các bộ dữ liệu đánh giá đa dạng và toàn diện, bao gồm cả những bộ dữ liệu tùy chỉnh do người dùng tạo ra.
• Công cụ này hỗ trợ đánh giá nhiều loại LLM khác nhau, từ các mô hình mã nguồn mở cho đến các API thương mại.
• AuditLLM tạo ra các báo cáo chi tiết về hiệu suất của LLM, giúp các nhà phát triển dễ dàng xác định các lĩnh vực cần cải thiện.
• Công cụ này có thể được tích hợp vào quy trình phát triển AI để liên tục giám sát và cải thiện chất lượng của LLM.
• AuditLLM hỗ trợ nhiều ngôn ngữ và có thể đánh giá khả năng đa ngôn ngữ của các mô hình.
• Công cụ này cũng có thể kiểm tra khả năng suy luận và giải quyết vấn đề của LLM thông qua các bài kiểm tra logic và toán học.
• AuditLLM giúp các tổ chức đảm bảo rằng LLM của họ tuân thủ các tiêu chuẩn đạo đức và quy định về AI.
• Công cụ này có thể phát hiện các trường hợp LLM tạo ra nội dung không phù hợp hoặc có hại.
• AuditLLM cung cấp các chỉ số đo lường về tính nhất quán và độ tin cậy của các phản hồi từ LLM.
• Công cụ này có thể đánh giá khả năng của LLM trong việc xử lý các tác vụ cụ thể như tóm tắt văn bản, dịch thuật hay trả lời câu hỏi.
• AuditLLM hỗ trợ so sánh hiệu suất giữa các phiên bản khác nhau của cùng một mô hình hoặc giữa các mô hình khác nhau.
• Công cụ này có thể đánh giá khả năng của LLM trong việc xử lý các loại dữ liệu đầu vào khác nhau như văn bản, hình ảnh hay âm thanh.
📌 AWS ra mắt AuditLLM, công cụ đánh giá toàn diện cho LLM với phương pháp đa thăm dò. Công cụ này có thể phát hiện lỗ hổng, đánh giá hiệu suất và tạo báo cáo chi tiết, giúp cải thiện chất lượng và đảm bảo tuân thủ tiêu chuẩn đạo đức AI.
https://analyticsindiamag.com/ai-news-updates/aws-launches-auditllm-a-multiprobe-approach-tool-for-llms/
• OpenGPT-X vừa công bố Bảng xếp hạng LLM châu Âu, đánh dấu một cột mốc quan trọng trong việc phát triển và đánh giá các mô hình ngôn ngữ đa ngôn ngữ.
• Dự án được hỗ trợ bởi TU Dresden và một liên minh gồm 10 đối tác từ nhiều lĩnh vực khác nhau, nhằm mục đích nâng cao khả năng xử lý đa ngôn ngữ của các mô hình ngôn ngữ.
• OpenGPT-X được khởi động vào năm 2022 dưới sự bảo trợ của BMWK, tập hợp các chuyên gia từ doanh nghiệp, khoa học và truyền thông để phát triển và đánh giá các LLM đa ngôn ngữ.
• Bảng xếp hạng so sánh nhiều mô hình ngôn ngữ tiên tiến, mỗi mô hình có khoảng 7 tỷ tham số, trên nhiều ngôn ngữ châu Âu khác nhau.
• Mục tiêu chính của dự án là mở rộng khả năng tiếp cận ngôn ngữ và đảm bảo lợi ích của AI không bị giới hạn ở các khu vực nói tiếng Anh.
• Nhóm nghiên cứu đã tiến hành đào tạo và đánh giá đa ngôn ngữ rộng rãi, kiểm tra các mô hình trên nhiều tác vụ như lập luận logic, hiểu biết thông thường, học đa nhiệm vụ, tính trung thực và dịch thuật.
• Các điểm chuẩn phổ biến như ARC, HellaSwag, TruthfulQA, GSM8K và MMLU đã được dịch máy sang 21 trong số 24 ngôn ngữ châu Âu được hỗ trợ bằng DeepL để đánh giá toàn diện và có thể so sánh được.
• Đánh giá các mô hình đa ngôn ngữ này được tự động hóa thông qua nền tảng AI Hugging Face Hub, với TU Dresden cung cấp cơ sở hạ tầng cần thiết để chạy các công việc đánh giá trên cụm HPC của họ.
• Các mô hình OpenGPT-X sẽ được công bố vào mùa hè này, giúp chúng có thể tiếp cận được để nghiên cứu và phát triển thêm.
• TU Dresden tham gia vào dự án OpenGPT-X với hai trung tâm năng lực: ScaDS.AI (Phân tích dữ liệu và trí tuệ nhân tạo có thể mở rộng) và ZIH (Dịch vụ thông tin và Điện toán hiệu năng cao).
• Nhiều điểm chuẩn đã được dịch và sử dụng trong dự án để đánh giá hiệu suất của các LLM đa ngôn ngữ, bao gồm ARC, GSM8K, HellaSwag, TruthfulQA, MMLU, FLORES-200 và Belebele.
📌 OpenGPT-X công bố Bảng xếp hạng LLM châu Âu, so sánh các mô hình 7 tỷ tham số trên nhiều ngôn ngữ. Dự án nhằm mở rộng khả năng tiếp cận ngôn ngữ, đánh giá toàn diện qua nhiều tác vụ, và sẽ công bố mô hình vào mùa hè để thúc đẩy nghiên cứu AI đa ngôn ngữ.
https://www.marktechpost.com/2024/07/14/opengpt-x-team-publishes-european-llm-leaderboard-promoting-the-way-for-advanced-multilingual-language-model-development-and-evaluation/
• OpenAI đã tạo ra một thang đánh giá nội bộ để theo dõi tiến trình các mô hình ngôn ngữ lớn của họ hướng tới trí tuệ nhân tạo tổng quát (AGI).
• Thang đánh giá gồm 5 cấp độ:
- Cấp 1: Các chatbot hiện tại như ChatGPT
- Cấp 2: Hệ thống có thể giải quyết các vấn đề cơ bản ở trình độ tiến sĩ
- Cấp 3: AI có khả năng thực hiện hành động thay người dùng
- Cấp 4: AI có thể tạo ra các đổi mới mới
- Cấp 5: AI có thể thực hiện công việc của cả tổ chức
• OpenAI tuyên bố họ đang tiến gần tới Cấp 2.
• Công ty định nghĩa AGI là "hệ thống tự chủ cao vượt trội con người trong hầu hết các nhiệm vụ có giá trị kinh tế".
• Thang đánh giá này có thể giúp OpenAI xác định rõ ràng hơn khi nào AGI được đạt tới.
• Tuy nhiên, AGI vẫn còn xa: cần hàng tỷ USD để đạt được, nếu có thể. Các chuyên gia và OpenAI đưa ra các dự đoán thời gian rất khác nhau.
• CEO Sam Altman từng nói chúng ta còn "khoảng 5 năm nữa" mới đạt tới AGI.
• OpenAI vừa công bố hợp tác với Phòng thí nghiệm Quốc gia Los Alamos để khám phá cách các mô hình AI tiên tiến như GPT-4 có thể hỗ trợ an toàn trong nghiên cứu khoa học sinh học.
• Tháng 5/2024, OpenAI đã giải thể nhóm an toàn sau khi người đứng đầu nhóm rời công ty. Một nhà nghiên cứu chủ chốt cũng từ chức, cho rằng "văn hóa và quy trình an toàn đã bị xếp sau các sản phẩm bóng bẩy".
• OpenAI chưa cung cấp chi tiết về cách họ phân loại các mô hình vào các cấp độ nội bộ này.
• Các lãnh đạo công ty đã trình diễn một dự án nghiên cứu sử dụng mô hình GPT-4 và tin rằng nó thể hiện một số kỹ năng mới có khả năng lập luận giống con người.
• Thang đánh giá này có thể giúp đưa ra định nghĩa chặt chẽ về tiến bộ, thay vì để nó mở cho nhiều cách diễn giải khác nhau.
📌 OpenAI đã tạo thang đánh giá 5 cấp độ để theo dõi tiến trình hướng tới AGI, từ chatbot hiện tại ở cấp 1 đến AI có thể thay thế cả tổ chức ở cấp 5. Công ty tuyên bố đang tiến gần tới cấp 2, nhưng AGI vẫn còn xa và cần hàng tỷ USD đầu tư. Thang này có thể giúp định nghĩa rõ ràng hơn về tiến bộ AI.
https://www.theverge.com/2024/7/11/24196746/heres-how-openai-will-determine-how-powerful-its-ai-systems-are
- Các kỹ thuật RAG gặp nhiều thách thức trong việc tích hợp thông tin cập nhật, giảm thiểu ảo giác và cải thiện chất lượng phản hồi trong các mô hình ngôn ngữ lớn (LLM).
- Các phương pháp hiện tại giải quyết những thách thức này bao gồm quy trình phân loại truy vấn, truy xuất, xếp hạng lại, đóng gói lại và tóm tắt. Tuy nhiên, chúng có những hạn chế cụ thể về hiệu quả tính toán và thời gian phản hồi.
- Các nhà nghiên cứu từ Đại học Fudan đã tiến hành một cuộc điều tra có hệ thống về các phương pháp RAG hiện có và các tổ hợp tiềm năng của chúng để xác định các thực tiễn tối ưu.
- Một đổi mới đáng chú ý là tích hợp các kỹ thuật truy xuất đa phương thức, giúp cải thiện đáng kể khả năng trả lời câu hỏi về đầu vào hình ảnh và tăng tốc quá trình tạo nội dung đa phương thức.
- Đánh giá liên quan đến các thiết lập thử nghiệm chi tiết để xác định các thực tiễn tốt nhất cho từng module RAG. Các tập dữ liệu như TREC DL 2019 và 2020 được sử dụng để đánh giá với nhiều phương pháp truy xuất khác nhau.
- Nghiên cứu đạt được những cải tiến đáng kể trên nhiều chỉ số hiệu suất quan trọng. Phương pháp Hybrid with HyDE đạt điểm cao nhất trên các tập dữ liệu TREC DL 2019 và 2020, với giá trị mAP lần lượt là 52,13 và 53,13, vượt trội hơn hẳn so với các phương pháp cơ sở.
- Hiệu suất truy xuất, được đo bằng recall@50, cho thấy sự cải thiện đáng kể, đạt giá trị 55,38 và 66,14. Những kết quả này nhấn mạnh hiệu quả của các chiến lược được đề xuất.
📌 Nghiên cứu này đề xuất một framework vững chắc để triển khai các hệ thống RAG, đạt được những cải tiến đáng kể về hiệu suất truy xuất và tạo sinh, với giá trị mAP đạt 53,13 và recall@50 đạt 66,14 trên tập dữ liệu TREC DL 2020. Việc tích hợp các kỹ thuật truy xuất đa phương thức mở ra tiềm năng cho các nghiên cứu trong tương lai.
https://www.marktechpost.com/2024/07/06/enhancing-language-models-with-rag-best-practices-and-benchmarks/
- Các nhà nghiên cứu tại Đại học Princeton chỉ ra nhiều điểm hạn chế trong các bài kiểm tra và phương pháp đánh giá tác tử AI hiện nay, gây cản trở khả năng ứng dụng thực tế của chúng.
- Một vấn đề lớn là thiếu kiểm soát chi phí trong đánh giá tác tử. Để tăng độ chính xác, một số hệ thống tạo ra hàng trăm hoặc hàng nghìn phản hồi, dẫn đến chi phí tính toán rất lớn.
- Nghiên cứu cho thấy với độ chính xác tương tự, chi phí có thể chênh lệch gần 2 bậc. Tuy nhiên, chi phí chạy tác tử không phải là chỉ số được báo cáo hàng đầu.
- Các nhà nghiên cứu đề xuất trực quan hóa kết quả đánh giá dưới dạng đường cong Pareto về độ chính xác và chi phí suy luận, đồng thời sử dụng các kỹ thuật tối ưu hóa đồng thời cho cả hai chỉ số này.
- Một vấn đề khác là sự khác biệt giữa đánh giá mô hình cho mục đích nghiên cứu và phát triển ứng dụng. Trong nghiên cứu, độ chính xác thường là trọng tâm chính, trong khi chi phí suy luận đóng vai trò quan trọng khi triển khai ứng dụng thực tế.
- Đánh giá chi phí suy luận cho tác tử AI là một thách thức. Các nhà cung cấp mô hình khác nhau có thể tính phí khác nhau cho cùng một mô hình. Chi phí gọi API thay đổi thường xuyên.
- Nghiên cứu cho thấy các bài kiểm tra dành cho đánh giá mô hình có thể gây hiểu lầm khi được sử dụng để đánh giá ứng dụng. Ví dụ, nghiên cứu NovelQA ban đầu khiến RAG trông tệ hơn nhiều so với các mô hình ngữ cảnh dài trong khi thực tế chúng có độ chính xác tương đương.
- Overfitting (quá khớp) là một vấn đề nghiêm trọng đối với các bài kiểm tra tác tử AI, vì chúng có xu hướng nhỏ, thường chỉ bao gồm vài trăm mẫu. Các nhà nghiên cứu đề xuất tạo và giữ bí mật các bộ kiểm tra holdout.
- Phân tích 17 bài kiểm tra cho thấy nhiều bài thiếu bộ dữ liệu holdout thích hợp, cho phép các tác tử đi tắt, thậm chí vô tình. Các lỗi này làm tăng ước tính độ chính xác và dẫn đến sự lạc quan thái quá về khả năng của tác tử.
📌 Nghiên cứu của Đại học Princeton chỉ ra nhiều vấn đề trong cách đánh giá tác tử AI hiện nay như thiếu kiểm soát chi phí, khác biệt giữa nghiên cứu và ứng dụng thực tế, khó khăn trong ước tính chi phí suy luận, và vấn đề overfitting. Các phát hiện này nhấn mạnh sự cần thiết phải xây dựng lại các phương pháp đánh giá tác tử AI để phản ánh đúng tiềm năng ứng dụng thực tế của chúng.
https://venturebeat.com/ai/ai-agent-benchmarks-are-misleading-study-warns/
- Salesforce AI Research giới thiệu phương pháp đánh giá mới gọi là "Summary of a Haystack" (SummHay) nhằm đánh giá hiệu quả hơn các mô hình ngữ cảnh dài và hệ thống RAG.
- Các nhà nghiên cứu tạo ra các tập hợp tài liệu tổng hợp (Haystacks), đảm bảo các thông tin cụ thể được lặp lại trong các tài liệu này. Mỗi Haystack thường chứa khoảng 100 tài liệu, tổng cộng khoảng 100.000 token.
- Nhiệm vụ SummHay yêu cầu các hệ thống xử lý Haystacks, tạo bản tóm tắt bao quát chính xác các thông tin liên quan và trích dẫn các tài liệu nguồn.
- Quy trình đánh giá đo lường bản tóm tắt trên hai khía cạnh chính: độ bao phủ của các thông tin mong đợi và chất lượng trích dẫn.
- Nhóm nghiên cứu tiến hành đánh giá quy mô lớn trên 10 LLM và 50 hệ thống RAG. Kết quả cho thấy nhiệm vụ SummHay vẫn là một thách thức đáng kể đối với các hệ thống hiện tại.
- Các LLM ngữ cảnh dài như GPT-4o và Claude 3 Opus đạt điểm dưới 20% trên SummHay khi không có bộ truy xuất. Nghiên cứu cũng chỉ ra sự đánh đổi giữa các hệ thống RAG và mô hình ngữ cảnh dài.
- Khi sử dụng thành phần RAG tiên tiến như Cohere's Rerank3, hiệu suất từ đầu đến cuối trên nhiệm vụ SummHay cho thấy cải thiện đáng kể. Tuy nhiên, các mô hình như Claude 3 Opus và GPT-4o chỉ đạt điểm tổng hợp khoảng 36%, thấp hơn đáng kể so với hiệu suất của con người ước tính là 56%.
📌 Nghiên cứu của Salesforce AI Research giải quyết khoảng trống quan trọng trong việc đánh giá LLM và hệ thống RAG ngữ cảnh dài. Bài kiểm tra SummHay cung cấp một khuôn khổ vững chắc để đánh giá khả năng của các hệ thống này. Mặc dù hiệu suất của các hệ thống hiện tại còn thấp hơn so với con người, nghiên cứu này mở đường cho những phát triển trong tương lai có thể sánh ngang hoặc vượt trội hơn hiệu suất của con người trong tóm tắt ngữ cảnh dài.
https://www.marktechpost.com/2024/07/06/salesforce-ai-research-introduces-summhay-a-robust-ai-benchmark-for-evaluating-long-context-summarization-in-llms-and-rag-systems/
• SORRY-Bench là một khung đánh giá mới được phát triển bởi các nhà nghiên cứu từ nhiều trường đại học hàng đầu nhằm đánh giá khả năng từ chối các yêu cầu không an toàn của các mô hình ngôn ngữ lớn (LLM).
• Khung đánh giá này giải quyết 3 vấn đề chính trong các phương pháp đánh giá an toàn LLM hiện tại:
- Đưa ra một phân loại chi tiết gồm 45 danh mục an toàn trong 4 lĩnh vực chính
- Đảm bảo cân bằng không chỉ giữa các chủ đề mà còn cả đặc điểm ngôn ngữ
- Khám phá các lựa chọn thiết kế để đánh giá an toàn nhanh chóng và chính xác
• SORRY-Bench sử dụng phương pháp phân loại nhị phân để xác định xem phản hồi của mô hình có thực hiện hay từ chối một hướng dẫn không an toàn.
• Các nhà nghiên cứu đã tạo ra một bộ dữ liệu đánh giá của con người quy mô lớn với hơn 7.200 chú thích.
• Kết quả đánh giá trên hơn 40 mô hình LLM cho thấy:
- 22/43 mô hình có tỷ lệ thực hiện yêu cầu không an toàn ở mức trung bình (20-50%)
- Claude-2 và Gemini-1.5 có tỷ lệ thực hiện thấp nhất (<10%)
- Một số mô hình như Mistral thực hiện trên 50% yêu cầu không an toàn
• Các danh mục như "Quấy rối", "Tội phạm liên quan đến trẻ em" và "Tội phạm tình dục" được từ chối nhiều nhất, với tỷ lệ thực hiện trung bình 10-11%.
• Nghiên cứu khám phá 20 biến thể ngôn ngữ khác nhau và phát hiện:
- Câu hỏi làm tăng nhẹ tỷ lệ từ chối ở hầu hết các mô hình
- Thuật ngữ kỹ thuật dẫn đến 8-18% thực hiện nhiều hơn ở tất cả các mô hình
- Lời nhắc đa ngôn ngữ có tác động khác nhau, với các mô hình gần đây có tỷ lệ thực hiện cao hơn đối với ngôn ngữ ít tài nguyên
- Các chiến lược mã hóa và mật mã thường làm giảm tỷ lệ thực hiện, ngoại trừ GPT-4o
• SORRY-Bench cung cấp một công cụ toàn diện và hiệu quả để cải thiện an toàn LLM, góp phần triển khai AI có trách nhiệm hơn.
📌 SORRY-Bench đưa ra khung đánh giá mới với 45 danh mục an toàn chi tiết, đánh giá hơn 40 mô hình LLM qua 20 biến thể ngôn ngữ. Claude-2 và Gemini-1.5 từ chối yêu cầu không an toàn tốt nhất (<10% thực hiện), trong khi các danh mục liên quan đến quấy rối và tội phạm tình dục được từ chối nhiều nhất (90% từ chối).
https://www.marktechpost.com/2024/07/02/45-shades-of-ai-safety-sorry-benchs-innovative-taxonomy-for-llm-refusal-behavior-analysis/
• Amazon AWS đề xuất một bộ tiêu chuẩn đánh giá mới cho phương pháp tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) trong bài báo "Đánh giá tự động các mô hình ngôn ngữ được tăng cường bởi truy xuất với việc tạo bài kiểm tra theo nhiệm vụ cụ thể".
• RAG là một phương pháp kết nối mô hình ngôn ngữ lớn với cơ sở dữ liệu chứa nội dung chuyên biệt như tài liệu công ty. Nó được kỳ vọng sẽ thúc đẩy việc áp dụng AI tạo sinh trong doanh nghiệp.
• Phương pháp đánh giá mới của Amazon tạo ra các cặp câu hỏi-câu trả lời từ 4 lĩnh vực: tài liệu xử lý sự cố của AWS, tóm tắt bài báo khoa học từ arXiv, câu hỏi trên StackExchange và hồ sơ từ Ủy ban Chứng khoán Mỹ.
• Các nhà nghiên cứu đã thử nghiệm hai họ mô hình nguồn mở là Mistral và Llama trong 3 kịch bản: không truy cập dữ liệu RAG, truy cập chính xác tài liệu gốc, và tìm kiếm trong toàn bộ tập dữ liệu.
• Kết quả cho thấy việc lựa chọn phương pháp truy xuất phù hợp có thể mang lại cải thiện hiệu suất vượt trội so với việc chỉ đơn giản tăng kích thước mô hình ngôn ngữ.
• Tuy nhiên, nếu thuật toán RAG không phù hợp, nó có thể làm giảm hiệu suất của mô hình so với phiên bản không sử dụng RAG.
• Phương pháp đánh giá này được cho là tự động, tiết kiệm chi phí, dễ hiểu và mạnh mẽ để lựa chọn các thành phần tối ưu cho hệ thống RAG.
• Bài báo sẽ được trình bày tại Hội nghị Quốc tế lần thứ 41 về Học máy diễn ra từ ngày 21-27/7 tại Vienna.
📌 Amazon đề xuất tiêu chuẩn đánh giá mới cho RAG, cho thấy lựa chọn thuật toán phù hợp có thể cải thiện hiệu suất AI hơn là tăng kích thước mô hình. Phương pháp này tạo bài kiểm tra từ 4 lĩnh vực, thử nghiệm trên Mistral và Llama, nhấn mạnh tầm quan trọng của việc tối ưu hóa RAG.
https://www.zdnet.com/article/amazon-proposes-a-new-ai-benchmark-to-measure-rag/
SEO contents:
• Anthropic vừa công bố chương trình tài trợ phát triển các loại tiêu chuẩn đánh giá mới để đánh giá hiệu suất và tác động của các mô hình AI, bao gồm cả mô hình AI tạo sinh như Claude của họ.
• Chương trình sẽ cấp kinh phí cho các tổ chức bên thứ ba có thể "đo lường hiệu quả các khả năng nâng cao trong các mô hình AI". Các đơn đăng ký sẽ được đánh giá liên tục.
• Anthropic nhấn mạnh mục tiêu nâng cao toàn bộ lĩnh vực an toàn AI, cung cấp công cụ hữu ích cho cả hệ sinh thái. Họ cho rằng việc phát triển các đánh giá chất lượng cao liên quan đến an toàn vẫn còn thách thức.
• Công ty kêu gọi các bài kiểm tra đánh giá khả năng của mô hình trong các nhiệm vụ như thực hiện tấn công mạng, "nâng cấp" vũ khí hủy diệt hàng loạt và thao túng hoặc lừa dối con người.
• Anthropic cam kết phát triển một "hệ thống cảnh báo sớm" để xác định và đánh giá rủi ro AI liên quan đến an ninh quốc gia và quốc phòng.
• Chương trình cũng hỗ trợ nghiên cứu về các tiêu chuẩn và nhiệm vụ "đầu cuối" để kiểm tra tiềm năng của AI trong hỗ trợ nghiên cứu khoa học, giao tiếp đa ngôn ngữ, giảm thiểu định kiến và tự kiểm duyệt độc hại.
• Anthropic dự kiến phát triển các nền tảng mới cho phép các chuyên gia phát triển đánh giá riêng và thử nghiệm quy mô lớn với "hàng nghìn" người dùng.
• Công ty cung cấp nhiều lựa chọn tài trợ phù hợp với nhu cầu và giai đoạn của từng dự án. Các nhóm sẽ có cơ hội tương tác trực tiếp với các chuyên gia của Anthropic.
• Nỗ lực của Anthropic nhằm hỗ trợ các tiêu chuẩn AI mới là đáng khen ngợi, nhưng có thể khó tin tưởng hoàn toàn do tham vọng thương mại của công ty trong cuộc đua AI.
• Một số chuyên gia có thể phản đối việc Anthropic đề cập đến các rủi ro AI "thảm khốc" và "lừa dối", cho rằng điều này chuyển sự chú ý khỏi các vấn đề quy định AI cấp bách hiện tại.
• Anthropic hy vọng chương trình sẽ thúc đẩy tiến bộ hướng tới tương lai nơi đánh giá AI toàn diện trở thành tiêu chuẩn ngành. Tuy nhiên, vẫn chưa rõ liệu các nỗ lực mở và độc lập với doanh nghiệp có sẵn sàng hợp tác với một nhà cung cấp AI hay không.
📌 Anthropic tài trợ phát triển tiêu chuẩn đánh giá AI mới, tập trung vào an toàn và tác động xã hội. Chương trình gây tranh cãi do mối quan tâm thương mại của công ty, nhưng có tiềm năng thúc đẩy tiến bộ trong lĩnh vực đánh giá AI toàn diện.
https://techcrunch.com/2024/07/01/anthropic-looks-to-fund-a-new-more-comprehensive-generation-of-ai-benchmarks/
• Các mô hình ngôn ngữ lớn (LLM) thể hiện hiệu suất ấn tượng trong nhiều tác vụ, đặc biệt là phân loại, khi được cung cấp nhãn chính xác hoặc các lựa chọn bao gồm câu trả lời đúng.
• Hạn chế đáng kể là khi cố tình bỏ qua các nhãn chính xác, LLM vẫn chọn trong số các khả năng, ngay cả khi không có câu trả lời nào đúng. Điều này gây lo ngại về khả năng hiểu và trí thông minh thực sự của các mô hình này trong tình huống phân loại.
• Hai vấn đề chính liên quan đến việc thiếu sự không chắc chắn của LLM:
1. Tính linh hoạt và xử lý nhãn: LLM có thể làm việc với bất kỳ bộ nhãn nào, ngay cả khi độ chính xác đáng ngờ. Lý tưởng nhất là chúng nên bắt chước hành vi con người bằng cách nhận ra các nhãn chính xác hoặc chỉ ra khi chúng không có mặt.
2. Khả năng phân biệt so với khả năng tạo sinh: LLM chủ yếu được thiết kế là mô hình tạo sinh, thường bỏ qua khả năng phân biệt. Các chỉ số hiệu suất cao có thể cho thấy các tác vụ phân loại là dễ dàng, nhưng các benchmark hiện tại có thể không phản ánh chính xác hành vi giống con người.
• Nghiên cứu gần đây đã đưa ra ba tác vụ phân loại phổ biến làm benchmark:
1. BANK77: Tác vụ phân loại ý định
2. MC-TEST: Tác vụ trả lời câu hỏi trắc nghiệm
3. EQUINFER: Tác vụ mới phát triển xác định phương trình chính xác dựa trên các đoạn văn xung quanh trong bài báo khoa học
• Bộ benchmark này được đặt tên là KNOW-NO, bao gồm các vấn đề phân loại với kích thước nhãn, độ dài và phạm vi khác nhau.
• Một chỉ số mới có tên OMNIACCURACY được giới thiệu để đánh giá hiệu suất của LLM chính xác hơn. Chỉ số này kết hợp kết quả từ hai khía cạnh:
1. Accuracy-W/-GOLD: Đo độ chính xác thông thường khi có nhãn đúng
2. ACCURACY-W/O-GOLD: Đo độ chính xác khi không có nhãn đúng
• Các đóng góp chính của nghiên cứu:
1. Chỉ ra hạn chế của LLM khi không có câu trả lời đúng trong tác vụ phân loại
2. Giới thiệu khung CLASSIFY-W/O-GOLD để đánh giá LLM
3. Đưa ra bộ KNOW-NO Benchmark gồm một tác vụ mới tạo và hai tác vụ phân loại nổi tiếng
4. Đề xuất chỉ số OMNIACCURACY để đánh giá toàn diện hiệu suất của LLM trong các tác vụ phân loại
📌 Nghiên cứu mới chỉ ra hạn chế của LLM trong phân loại khi không có nhãn đúng. Bộ KNOW-NO Benchmark và chỉ số OMNIACCURACY được đề xuất để đánh giá toàn diện khả năng phân loại của LLM, kết hợp cả trường hợp có và không có nhãn đúng.
https://www.marktechpost.com/2024/07/02/understanding-the-limitations-of-large-language-models-llms-new-benchmarks-and-metrics-for-classification-tasks/
• AI tạo sinh (GenAI) đang tạo ra một bước ngoặt quan trọng trong việc nâng cao hiệu quả hoạt động của doanh nghiệp. Nhiều tổ chức đang tập trung vào việc sử dụng GenAI để cải thiện năng suất và giảm chi phí hoạt động, tuy nhiên họ đang bỏ lỡ cơ hội lớn hơn - sử dụng GenAI để thúc đẩy sáng tạo và đổi mới.
• Có một điểm chuyển tiếp quan trọng giữa việc sử dụng GenAI để giảm chi phí (giai đoạn Năng suất) và sử dụng nó để thúc đẩy sáng tạo (giai đoạn Đổi mới). Giai đoạn Năng suất nhằm nâng cao năng suất của nhân viên trung bình lên ngang tầm với những người giỏi nhất. Ví dụ, GenAI có thể nâng cao năng suất của y tá trung bình bằng cách tối ưu hóa quy trình lập hồ sơ, cung cấp thông tin y tế cập nhật và phân tích nhanh dữ liệu bệnh nhân.
• Giai đoạn Đổi mới mang lại cơ hội lớn hơn nhiều. Trong giai đoạn này, trọng tâm chuyển sang việc thúc đẩy những bước tiến đột phá và tái cấu trúc các quy trình kinh doanh. Ví dụ, các y tá giỏi có thể sử dụng AI để phân tích dữ liệu bệnh nhân phức tạp, xác định các chiến lược điều trị mới và liên tục học hỏi để cải thiện kết quả điều trị.
• Các cấp độ trưởng thành của đổi mới dựa trên GenAI bao gồm:
1. Tối ưu hóa kinh doanh: Cải thiện quy trình hiện có để nâng cao hiệu quả và cắt giảm lãng phí.
2. Tái cấu trúc quy trình: Thiết kế lại căn bản các quy trình kinh doanh bằng cách tận dụng AI.
3. Thống trị thị trường: Xác định, thâm nhập và thống trị các thị trường mới.
4. Trao quyền văn hóa: Xây dựng văn hóa đổi mới, hợp tác và cải tiến liên tục.
• Các prompt trong giai đoạn Năng suất tập trung vào tự động hóa các tác vụ thường xuyên và cải thiện năng suất. Ví dụ: "Viết thư tuyển dụng dựa trên các tiêu chí sau...", "Tìm các vụ án pháp lý phù hợp với các tiêu chí sau...".
• Các prompt trong giai đoạn Đổi mới khuyến khích tư duy sáng tạo và khám phá ý tưởng mới. Chúng được thiết kế để mở rộng ranh giới của những gì có thể, tạo môi trường cho sự đổi mới phát triển.
• Bằng cách sử dụng mô hình trưởng thành này làm hướng dẫn, các tổ chức có thể phát triển chiến lược kỹ thuật prompt có hệ thống để đẩy nhanh tiến độ trong giai đoạn Đổi mới của GenAI. Điều này sẽ cho phép họ khai thác sức mạnh của GenAI để đạt được mức độ đổi mới và khám phá sáng tạo cao hơn.
📌 AI tạo sinh đang thúc đẩy đổi mới trong doanh nghiệp qua 4 giai đoạn: tối ưu hóa, tái cấu trúc, thống trị thị trường và trao quyền văn hóa. Việc chuyển từ giai đoạn Năng suất sang Đổi mới mở ra tiềm năng to lớn để tạo ra giá trị mới và đột phá trong nhiều lĩnh vực.
https://www.datasciencecentral.com/genai-maturity-from-productivity-to-effectiveness/
• Hai nghiên cứu mới chỉ ra những hạn chế đáng ngạc nhiên của AI tạo sinh khi phân tích văn bản dài và video, trái ngược với những tuyên bố quảng cáo.
• Một nghiên cứu kiểm tra khả năng của các mô hình ngôn ngữ AI trong việc hiểu và tiếp tục các câu chuyện dài, đánh giá mức độ hiểu và phát triển các tường thuật mở rộng.
• Với một cuốn sách dài 520 trang, Gemini 1.5 Pro trả lời chính xác các câu hỏi đúng/sai 46,7% thời gian, trong khi Gemini Flash chỉ đạt 20%.
• GPT-4 đạt độ chính xác cao nhất là 55,8% trên bộ dữ liệu NoCha (Novel Challenge).
• Các giải thích do mô hình tạo ra cho quyết định của chúng thường không chính xác, ngay cả đối với các tuyên bố được gắn nhãn đúng.
• Marzena Karpinska, đồng tác giả nghiên cứu, nhận xét rằng mặc dù các mô hình như Gemini 1.5 Pro có thể xử lý ngữ cảnh dài về mặt kỹ thuật, nhưng trong nhiều trường hợp chúng không thực sự "hiểu" nội dung.
• Nghiên cứu thứ hai tập trung vào đánh giá hiệu suất của các mô hình ngôn ngữ thị giác (VLM) trong việc phân tích video.
• Các nhà nghiên cứu tạo ra một bộ dữ liệu gồm hình ảnh kèm theo các câu hỏi để mô hình trả lời về các đối tượng được mô tả trong hình ảnh.
• Kết quả cho thấy các VLM hiện đại gặp khó khăn trong việc bỏ qua thông tin không liên quan khi trả lời các truy vấn trong ngữ cảnh thị giác dài.
• Gemini Flash hoạt động kém hiệu quả khi được yêu cầu phiên mã 6 chữ số viết tay từ một trình chiếu 25 hình ảnh, chỉ đạt khoảng 50% độ chính xác và 30% với 8 chữ số.
• Michael Saxon, đồng tác giả nghiên cứu, nhận xét rằng việc nhận dạng số trong khung hình và đọc nó dường như đặc biệt khó khăn đối với tất cả các mô hình được kiểm tra.
• Những phát hiện này đặt ra câu hỏi về khả năng thực tế của AI tạo sinh trong việc phân tích và hiểu các nguồn dữ liệu phức tạp và dài hơn.
• Các công ty nên cân nhắc những hạn chế này khi tích hợp AI tạo sinh vào lực lượng lao động của họ.
📌 Nghiên cứu mới cho thấy Google Gemini và các mô hình AI khác gặp khó khăn đáng kể khi phân tích văn bản dài và video. Gemini 1.5 Pro chỉ đạt 46,7% độ chính xác với sách 520 trang, trong khi GPT-4 đạt cao nhất 55,8%. Các mô hình cũng gặp khó khăn trong việc trả lời câu hỏi về video, đặt ra câu hỏi về khả năng thực tế của AI trong xử lý dữ liệu phức tạp.
https://www.techspot.com/news/103610-google-gemini-not-good-analysis-hype-other-ai.html
- LOFT là một bộ dữ liệu đánh giá toàn diện cho các mô hình ngôn ngữ ngữ cảnh dài (LCLM), nhằm khắc phục những hạn chế của các phương pháp đánh giá hiện tại.
- Bộ dữ liệu bao gồm 6 tác vụ trên 35 tập dữ liệu đa phương thức (văn bản, hình ảnh, âm thanh), với độ dài ngữ cảnh tăng dần lên đến 1 triệu token và có thể mở rộng hơn nữa.
- LOFT tập trung vào 4 lĩnh vực mà LCLM có tiềm năng gây đột phá: truy xuất đa phương thức, tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG), truy vấn cơ sở dữ liệu không cần SQL và học trong ngữ cảnh nhiều shot.
- Các tác vụ chính của LOFT gồm: truy xuất, RAG, lập luận kiểu SQL và học trong ngữ cảnh nhiều shot (ICL). Bộ dữ liệu được thiết kế với 3 giới hạn độ dài ngữ cảnh: 32k, 128k và 1M token.
- Kết quả ban đầu cho thấy Gemini 1.5 Pro hoạt động tốt trong truy xuất văn bản, hình ảnh và âm thanh, thường sánh ngang hoặc vượt trội hơn các mô hình chuyên biệt. Nó cũng xuất sắc trong các tác vụ RAG đa bước nhưng gặp khó khăn với các tập dữ liệu đa mục tiêu ở quy mô lớn hơn.
- Các tác vụ lập luận kiểu SQL cho thấy tiềm năng nhưng cần cải thiện. Kết quả ICL nhiều shot khác nhau, với Gemini 1.5 Pro và Claude 3 Opus hoạt động mạnh mẽ ở các lĩnh vực khác nhau.
- LOFT làm nổi bật khả năng ngày càng tăng của LCLM trên nhiều tác vụ và phương thức khác nhau, đồng thời xác định các lĩnh vực cần cải thiện, đặc biệt là mở rộng ra các ngữ cảnh lớn hơn và lập luận phức tạp.
📌 LOFT là một bộ dữ liệu đánh giá toàn diện và có khả năng mở rộng động lên đến 1 tỷ token, đảm bảo tính phù hợp liên tục khi LCLM phát triển. Kết quả ban đầu cho thấy LCLM thể hiện khả năng truy xuất cạnh tranh so với các hệ thống chuyên biệt. Tuy nhiên, bài kiểm tra cũng cho thấy còn nhiều không gian để cải thiện khả năng lập luận ngữ cảnh dài, đặc biệt khi các mô hình truy cập vào các cửa sổ ngữ cảnh dài hơn.
https://www.marktechpost.com/2024/06/23/loft-a-comprehensive-ai-benchmark-for-evaluating-long-context-language-models/
- Công ty khởi nghiệp AI Sierra Technologies Inc. giới thiệu bài kiểm tra benchmark 𝜏-bench mới để đánh giá hiệu suất của các tác tử AI trong các tình huống thực tế.
- 𝜏-bench đánh giá khả năng hoàn thành các tác vụ phức tạp của chatbot thay vì chỉ đánh giá khả năng hội thoại như các benchmark trước đây.
- Các tác tử AI của Sierra có thể thực hiện các hành động như mở phiếu hoàn trả hàng và hoàn tiền cho khách hàng.
- Các benchmark hiện tại chỉ đánh giá một vòng tương tác giữa người và tác tử, trong khi 𝜏-bench đánh giá tương tác đa vòng, độ tin cậy và khả năng thích ứng.
- 𝜏-bench kiểm tra khả năng tuân theo quy tắc, lập luận, ghi nhớ thông tin và giao tiếp hiệu quả của tác tử AI trong các cuộc hội thoại phức tạp.
- Sierra đã kiểm tra 12 mô hình ngôn ngữ lớn (LLM) phổ biến với 𝜏-bench và kết quả cho thấy hầu hết đều gặp khó khăn trong việc giải quyết các tác vụ.
- LLM tốt nhất, GPT-4 của OpenAI, chỉ đạt tỷ lệ thành công dưới 50% trong 2 lĩnh vực bán lẻ và hàng không.
- Độ tin cậy của 12 LLM cũng rất đáng ngờ, không có LLM nào có thể giải quyết nhất quán cùng một tác vụ khi mô phỏng tương tác nhiều lần.
- Các tác tử của Sierra hoạt động tốt hơn nhiều nhờ bộ công cụ phát triển phần mềm (SDK) cho phép chỉ định hành vi của tác tử, LLM giám sát đảm bảo tính nhất quán và công cụ vòng đời phát triển tác tử.
- Sierra sẽ công khai 𝜏-bench cho cộng đồng AI sử dụng và cải tiến nó để đánh giá các khía cạnh khác trong hiệu suất hội thoại của tác tử AI.
📌 Bài kiểm tra benchmark 𝜏-bench mới của Sierra Technologies Inc. cho thấy hầu hết các mô hình ngôn ngữ lớn như GPT-4 đều thất bại trong việc xử lý các tác vụ phức tạp, với tỷ lệ thành công dưới 50% và độ tin cậy thấp hơn 25%. Tuy nhiên, các tác tử AI của Sierra hoạt động tốt hơn đáng kể nhờ công cụ phát triển tiên tiến.
https://siliconangle.com/2024/06/20/ai-startup-sierras-new-benchmark-shows-llms-fail-complex-tasks/
• MixEval kết hợp các câu hỏi từ người dùng thực tế với các bài kiểm tra thương mại để tạo ra một khung đánh giá vững chắc. Phiên bản MixEval-Hard tập trung vào các truy vấn khó hơn. MixEval có ưu điểm vượt trội so với Chatbot Arena với tương quan xếp hạng mô hình 0.96 và tiết kiệm 6% thời gian và chi phí so với MMLU.
• IFEval là một bài kiểm tra đơn giản và có thể lặp lại để đánh giá khả năng tuân thủ các hướng dẫn bằng ngôn ngữ tự nhiên của LLM. Bài kiểm tra bao gồm khoảng 500 lời nhắc với một hoặc nhiều hướng dẫn có thể kiểm chứng được.
• Arena-Hard-Auto-v0.1 là một công cụ đánh giá tự động cho các LLM được tinh chỉnh theo hướng dẫn. Nó bao gồm 500 câu hỏi khó từ người dùng và so sánh câu trả lời của mô hình với mô hình cơ sở bằng cách sử dụng GPT-4-Turbo làm người đánh giá.
• MMLU đánh giá độ chính xác đa nhiệm của mô hình trong nhiều lĩnh vực như khoa học máy tính, luật, lịch sử Hoa Kỳ và toán học cơ bản. Đây là một bài kiểm tra 57 mục đòi hỏi mô hình phải có hiểu biết rộng về thế giới và khả năng giải quyết vấn đề.
• GSM8K cung cấp một bộ 8.5K bài toán từ đơn giản đến phức tạp ở cấp tiểu học để đánh giá khả năng lập luận toán học nhiều bước của mô hình ngôn ngữ hiện đại.
• HumanEval đánh giá kỹ năng viết mã Python của Codex, một mô hình ngôn ngữ GPT được tối ưu hóa trên mã nguồn mở công khai từ GitHub. Codex vượt trội hơn GPT-3 và GPT-J, giải quyết được 28.8% các vấn đề trên bài kiểm tra HumanEval.
📌 Các chỉ số như MixEval, IFEval, Arena-Hard, MMLU, GSM8K và HumanEval đóng vai trò quan trọng trong việc đánh giá toàn diện hiệu suất của các mô hình ngôn ngữ lớn trong các tình huống thực tế. Chúng giúp xác định các điểm mạnh, điểm yếu và không gian cải tiến của mô hình trong nhiều lĩnh vực như tuân thủ hướng dẫn, lập luận toán học và viết mã.
https://www.marktechpost.com/2024/06/19/key-metrics-for-evaluating-large-language-models-llms/
- Maxim, một startup ở California do các cựu lãnh đạo Google và Postman sáng lập, ra mắt nền tảng đánh giá và quan sát toàn diện để giải quyết thách thức lớn nhất các nhà phát triển gặp phải khi xây dựng ứng dụng AI dựa trên mô hình ngôn ngữ lớn (LLM): theo dõi các phần di chuyển khác nhau trong vòng đời phát triển.
- Nền tảng của Maxim tập trung vào kiểm tra và cải thiện chất lượng, an toàn của AI trước và sau khi phát hành, tạo ra một tiêu chuẩn đánh giá, giúp các tổ chức hợp lý hóa toàn bộ vòng đời ứng dụng AI và nhanh chóng cung cấp sản phẩm chất lượng cao.
- Maxim có 4 thành phần chính: bộ thử nghiệm, bộ công cụ đánh giá, khả năng quan sát và công cụ dữ liệu. Bộ thử nghiệm giúp lặp lại các thành phần khác nhau của hệ thống AI. Bộ công cụ đánh giá cung cấp framework thống nhất để xác định cải tiến hay thoái lui. Khả năng quan sát cho phép giám sát nhật ký sản xuất thời gian thực và gỡ lỗi. Công cụ dữ liệu giúp thu thập và làm giàu dữ liệu để tinh chỉnh mô hình.
- Maxim tuyên bố đã giúp các đối tác thử nghiệm, lặp lại và triển khai sản phẩm AI nhanh hơn 5 lần. Hầu hết khách hàng của họ đến từ các lĩnh vực công nghệ B2B, dịch vụ AI tạo sinh, tài chính ngân hàng và giáo dục trực tuyến.
- Maxim có các tính năng dành cho doanh nghiệp như kiểm soát truy cập dựa trên vai trò, tuân thủ, cộng tác nhóm và triển khai trên đám mây riêng ảo.
📌 Maxim ra mắt nền tảng đánh giá toàn diện giúp các tổ chức hợp lý hóa vòng đời phát triển ứng dụng AI, tập trung vào kiểm tra chất lượng và an toàn trước và sau khi phát hành. Với 4 thành phần chính và các tính năng dành cho doanh nghiệp, Maxim đã giúp các đối tác triển khai sản phẩm AI nhanh hơn 5 lần, chủ yếu trong lĩnh vực công nghệ B2B, dịch vụ AI tạo sinh, tài chính và giáo dục trực tuyến.
https://venturebeat.com/ai/meet-maxim-an-end-to-end-evaluation-platform-to-solve-ai-quality-issues/
- Salesforce công bố công cụ đánh giá AI tạo sinh đầu tiên cho CRM, giúp doanh nghiệp đưa ra quyết định sáng suốt khi lựa chọn LLM cho ứng dụng kinh doanh.
- Theo Clara Shih, CEO của Salesforce AI, khách hàng không chỉ muốn mô hình tốt nhất mà còn phải đảm bảo tuân thủ, phù hợp với tiêu chuẩn bảo mật và chi phí hợp lý.
- Việc lựa chọn LLM cho ứng dụng kinh doanh là bài toán tối ưu hóa có ràng buộc, cân bằng giữa chi phí, độ chính xác, độ tin cậy, an toàn và tốc độ.
- Công cụ đánh giá mới của Salesforce giúp doanh nghiệp hiểu rõ ưu nhược điểm của các LLM khác nhau và đưa ra quyết định phù hợp với mục tiêu và ưu tiên kinh doanh.
- Công cụ này không dựa trên đánh giá tự động bằng LLM hay dữ liệu tổng hợp. Các chuyên gia nghiên cứu và xác định tiêu chí đánh giá LLM, sử dụng dữ liệu CRM thực tế.
- Các chỉ số chính bao gồm: độ chính xác (tính xác thực, đầy đủ, súc tích, tuân thủ hướng dẫn), chi phí (cao, trung bình, thấp), tốc độ (thời gian phản hồi, hiệu quả xử lý), độ tin cậy và an toàn (xử lý dữ liệu nhạy cảm, tuân thủ quy định bảo mật).
- Kết quả cho thấy không phải lúc nào mô hình lớn nhất cũng là tốt nhất. Có thể đạt hiệu suất tốt với mô hình nhỏ hơn, hiệu quả về chi phí và độ trễ.
- Salesforce cam kết tiếp tục mở rộng nghiên cứu với nhiều chỉ số, trường hợp sử dụng, dữ liệu và chú thích hơn nữa.
📌 Salesforce giới thiệu công cụ đánh giá AI tạo sinh đầu tiên cho CRM, giúp doanh nghiệp lựa chọn LLM phù hợp nhất dựa trên các tiêu chí như độ chính xác, chi phí, tốc độ, độ tin cậy và an toàn. Công cụ này sử dụng dữ liệu CRM thực tế và đánh giá của chuyên gia, cho thấy mô hình nhỏ hơn đôi khi vẫn đạt hiệu suất tốt với chi phí và độ trễ thấp hơn.
https://www.cio.com/article/2151993/salesforce-debuts-gen-ai-benchmark-for-crm.html?amp=1
- GenAI-Arena là nền tảng mở vững chắc, cho phép đánh giá công bằng các mô hình AI tạo sinh thông qua bình chọn của người dùng.
- Nền tảng hỗ trợ nhiều tác vụ như tạo ảnh từ văn bản, chỉnh sửa ảnh theo văn bản và tạo video từ văn bản.
- Người dùng có thể tạo ảnh, so sánh các mô hình và bình chọn ẩn danh cho mô hình ưa thích.
- Hệ thống xếp hạng phản ánh sở thích của con người, đánh giá toàn diện khả năng của mô hình.
- GenAI-Arena là nền tảng đánh giá đầu tiên hỗ trợ đầy đủ nhiều thuộc tính, quy trình bình chọn công khai, đảm bảo tính minh bạch.
- Nền tảng đã thu thập hơn 6.000 phiếu bầu cho 3 tác vụ tạo sinh đa phương thức, xây dựng bảng xếp hạng cho từng tác vụ, xác định các mô hình tiên tiến nhất.
- Đối với tác vụ tạo ảnh, các mô hình Playground V2.5 và V2 dẫn đầu, vượt trội hơn đáng kể so với SDXL thứ 7 nhờ dữ liệu huấn luyện riêng.
- Đối với tác vụ chỉnh sửa ảnh, MagicBrush, InFEdit, CosXLEdit cho phép chỉnh sửa cục bộ xếp hạng cao hơn.
- Trong tác vụ tạo video từ văn bản, T2VTurbo dẫn đầu với điểm Elo cao nhất, theo sau là StableVideoDiffusion, VideoCrafter2, AnimateDiff.
- Nghiên cứu công bố dữ liệu sở thích của con người chất lượng cao GenAI-Bench, cho thấy các mô hình ngôn ngữ đa phương thức hiện tại tương quan kém với đánh giá của con người.
📌 GenAI-Arena là nền tảng mở dựa trên bình chọn cộng đồng để xếp hạng các mô hình tạo sinh trên nhiều tác vụ. Với hơn 6.000 phiếu bầu từ tháng 2 đến tháng 6 năm 2024, các bảng xếp hạng Elo đã xác định những mô hình tiên tiến nhất. Phân tích cũng chỉ ra sự tương quan kém giữa các mô hình ngôn ngữ đa phương thức hiện có với đánh giá của con người về chất lượng nội dung được tạo ra.
https://www.marktechpost.com/2024/06/12/genai-arena-an-open-platform-for-community-based-evaluation-of-generative-ai-models/
- LiveBench là một bộ đánh giá LLM mới do Abacus.AI, NYU, Nvidia, Đại học Maryland và USC phát triển, nhằm giải quyết các hạn chế của các bộ đánh giá hiện tại.
- Nó sử dụng dữ liệu kiểm tra không bị nhiễm từ các nguồn gần đây, chấm điểm tự động dựa trên giá trị thực tế khách quan.
- LiveBench bao gồm 18 tác vụ trên 6 lĩnh vực: toán học, lập trình, lập luận, ngôn ngữ, tuân thủ hướng dẫn và phân tích dữ liệu. Mỗi tác vụ có độ khó từ dễ đến khó nhất.
- 960 câu hỏi đã có sẵn, với các câu hỏi mới và khó hơn được phát hành hàng tháng để giảm thiểu khả năng nhiễm dữ liệu kiểm tra.
- Các mô hình hàng đầu đạt độ chính xác dưới 60%. GPT-4o của OpenAI dẫn đầu với điểm trung bình 53.79, tiếp theo là GPT-4 Turbo với 53.34 và Claude 3 Opus của Anthropic với 51.92.
- LiveBench có xu hướng tương tự với các bộ đánh giá nổi tiếng khác như Chatbot Arena và Arena-Hard của LMSYS, mặc dù một số mô hình mạnh hơn đáng kể trên bộ này so với bộ kia.
📌 LiveBench là một bộ đánh giá LLM mới sử dụng dữ liệu kiểm tra sạch và chấm điểm khách quan trên 18 tác vụ khó thuộc 6 lĩnh vực. Các mô hình hàng đầu như GPT-4 và Claude 3 Opus chỉ đạt độ chính xác dưới 60%, cho thấy mức độ thách thức của bộ đánh giá này so với các bộ hiện có.
https://venturebeat.com/ai/livebench-open-ai-model-benchmark-contamination-free-test-data/
- Các nhà nghiên cứu từ Đại học Giao thông Thượng Hải, Đại học Thanh Hoa và Phòng thí nghiệm AI Thượng Hải đề xuất FedLLM-Bench, bộ dữ liệu đánh giá thực tế đầu tiên cho mô hình ngôn ngữ lớn học liên kết (FedLLM).
- FedLLM-Bench cung cấp một môi trường thử nghiệm toàn diện với 4 tập dữ liệu: Fed-Aya (tinh chỉnh hướng dẫn đa ngôn ngữ), Fed-WildChat (tinh chỉnh hướng dẫn trò chuyện nhiều lượt), Fed-ChatbotIT (tinh chỉnh hướng dẫn trò chuyện một lượt) và Fed-ChatbotPA (điều chỉnh sở thích).
- Các tập dữ liệu được chia tự nhiên theo ID người dùng thực tế trên 38 đến 747 máy khách, nắm bắt các đặc tính liên kết thực tế như phân vùng dữ liệu trên các thiết bị.
- Các tập dữ liệu thể hiện sự đa dạng về ngôn ngữ, chất lượng dữ liệu, số lượng, độ dài chuỗi và sở thích người dùng, phản ánh sự phức tạp của thế giới thực.
- FedLLM-Bench tích hợp các tập dữ liệu này với 8 phương pháp cơ sở và 6 chỉ số đánh giá để tạo điều kiện so sánh phương pháp và khám phá các hướng nghiên cứu mới.
- Phân tích tập dữ liệu sâu rộng cho thấy sự đa dạng giữa/trong tập dữ liệu ở các khía cạnh như độ dài, hướng dẫn, chất lượng, embedding và số lượng.
- Đánh giá sử dụng 6 chỉ số - 4 chỉ số mở (MT-Bench, Vicuna bench, AdvBench, Ref-GPT4) và 2 chỉ số đóng (MMLU, HumanEval).
- Trên tập dữ liệu đa ngôn ngữ Fed-Aya, hầu hết các phương pháp liên kết vượt trội hơn đào tạo cục bộ trung bình, mặc dù không có phương pháp nào chiếm ưu thế trên tất cả các ngôn ngữ.
- Đối với Fed-ChatbotIT, tất cả các phương pháp liên kết đều nâng cao khả năng tuân theo hướng dẫn so với đào tạo cục bộ mà không ảnh hưởng đến khả năng chung, với FedAdagrad hoạt động tốt nhất tổng thể.
- Trên Fed-WildChat cho các cuộc trò chuyện một và nhiều lượt, các phương pháp liên kết liên tục vượt trội hơn đào tạo cục bộ, với FedAvg được chứng minh là hiệu quả nhất cho nhiều lượt.
- Đối với điều chỉnh sở thích Fed-ChatbotPA, đào tạo liên kết cải thiện khả năng tuân theo hướng dẫn và an toàn so với cục bộ, với FedAvgM, FedProx, SCAFFOLD và FedAvg là những người thực hiện hàng đầu.
📌 FedLLM-Bench là bộ dữ liệu đánh giá thực tế đầu tiên cho FedLLM với 4 tập dữ liệu đa dạng trên 38-747 máy khách, thể hiện các đặc tính thế giới thực. Tích hợp với 8 phương pháp đào tạo và 6 chỉ số đánh giá, nó cung cấp một môi trường thử nghiệm toàn diện, thực tế, cho phép so sánh công bằng và thúc đẩy tiến bộ trong lĩnh vực FedLLM đang phát triển.
https://www.marktechpost.com/2024/06/11/benchmarking-federated-learning-for-large-language-models-with-fedllm-bench/
- Nvidia tiếp tục thống trị nhiều bài kiểm tra chuẩn về học máy, với hai bài kiểm tra mới được bổ sung vào bộ MLPerf.
- Một hệ thống bao gồm 11.616 GPU Nvidia H100 đứng đầu trong cả 9 bài kiểm tra, lập kỷ lục mới ở 5 bài (bao gồm 2 bài mới về tinh chỉnh LLM và mạng nơ-ron đồ thị).
- Hệ thống 11.616 GPU H100 hoàn thành bài kiểm tra huấn luyện GPT-3 trong chưa đầy 3,5 phút, cải thiện 3,2 lần so với năm ngoái.
- Nvidia đạt được khả năng mở rộng tuyến tính, nghĩa là gấp đôi số GPU sẽ giảm một nửa thời gian huấn luyện.
- Các đối thủ như Intel và Google cũng đang tiến gần hơn đến khả năng mở rộng tuyến tính.
- Nvidia cải thiện hiệu suất nhờ các tối ưu hóa phần mềm như điều chỉnh sử dụng số chấm động 8-bit, điều chỉnh ngân sách điện năng, tăng tốc giao tiếp giữa các GPU và áp dụng thuật toán flash attention.
- MLPerf bổ sung hai bài kiểm tra mới về tinh chỉnh LLM và mạng nơ-ron đồ thị để bắt kịp xu hướng trong ngành AI.
- Trong tương lai, AMD, Intel và Nvidia sẽ cạnh tranh gay gắt hơn với các bộ tăng tốc AI mới.
📌 Nvidia tiếp tục thống trị các bài kiểm tra chuẩn về AI của MLPerf với hệ thống 11.616 GPU H100, đạt mức tăng 3,2 lần so với năm ngoái và khả năng mở rộng tuyến tính. Sự cạnh tranh từ Intel, Google và AMD hứa hẹn sẽ gay cấn hơn trong tương lai gần với các bộ tăng tốc AI thế hệ mới.
https://spectrum.ieee.org/mlperf-nvidia-conquers
- Các mô hình ngôn ngữ lớn (LLMs) đã cách mạng hóa xử lý ngôn ngữ tự nhiên (NLP), đặc biệt trong lĩnh vực trả lời câu hỏi (QA). Tuy nhiên, vấn đề hallucination (sinh ra câu trả lời không chính xác hoặc không có căn cứ) vẫn là một trở ngại lớn.
- Phương pháp tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) được coi là một hướng tiếp cận triển vọng để giải quyết những hạn chế về kiến thức của LLMs. Tuy nhiên, RAG cũng đối mặt với nhiều thách thức như lựa chọn thông tin liên quan, giảm độ trễ và tổng hợp thông tin cho các truy vấn phức tạp.
- Các nhà nghiên cứu đề xuất bộ dữ liệu CRAG nhằm kết hợp 5 tính năng quan trọng: tính thực tế, tính phong phú, tính sâu sắc, tính đáng tin cậy và tính bền vững. Bộ dữ liệu chứa 4.409 cặp câu hỏi-câu trả lời đa dạng từ 5 lĩnh vực, bao gồm các câu hỏi đơn giản dựa trên sự kiện và 7 loại câu hỏi phức tạp.
- CRAG cung cấp các API giả lập truy xuất từ các trang web và đồ thị kiến thức giả với 2,6 triệu thực thể, phản ánh nhiễu thực tế. Bộ dữ liệu đưa ra 3 tác vụ để đánh giá khả năng truy xuất web, truy vấn có cấu trúc và tóm tắt của các giải pháp RAG.
- Kết quả cho thấy mô hình GPT-4 chỉ đạt độ chính xác khoảng 34% trên CRAG, trong khi kết hợp RAG cải thiện độ chính xác lên 44%. Tuy nhiên, ngay cả các giải pháp RAG tiên tiến trong ngành cũng chỉ trả lời được 63% câu hỏi mà không bị hallucination.
- CRAG cho thấy mức độ khó phù hợp và cung cấp những hiểu biết sâu sắc từ dữ liệu đa dạng của nó. Các đánh giá cũng nhấn mạnh khoảng cách nghiên cứu để phát triển các hệ thống trả lời câu hỏi hoàn toàn đáng tin cậy.
📌 Bộ dữ liệu CRAG giúp thúc đẩy nghiên cứu về RAG cho các hệ thống trả lời câu hỏi. Qua các đánh giá thực nghiệm chặt chẽ, CRAG chỉ ra những hạn chế của các giải pháp RAG hiện tại và đưa ra những hiểu biết quý giá cho các cải tiến trong tương lai. Bộ dữ liệu sẽ tiếp tục được mở rộng, bao gồm các câu hỏi đa ngôn ngữ, đầu vào đa phương thức, hội thoại nhiều lượt và hơn thế nữa, nhằm đảm bảo CRAG luôn đi đầu trong việc thúc đẩy nghiên cứu RAG.
https://www.marktechpost.com/2024/06/11/advancing-reliable-question-answering-with-the-crag-benchmark/
- Tại WWDC 2024, Apple đã giới thiệu Apple Intelligence - hệ thống trí tuệ cá nhân tích hợp sâu vào iOS 18, iPadOS 18 và macOS Sequoia. Hệ thống này bao gồm nhiều mô hình tạo sinh (generative models) chuyên biệt cho các tác vụ hàng ngày của người dùng.
- Hai mô hình nền tảng chính là mô hình ngôn ngữ khoảng 3 tỷ tham số trên thiết bị và mô hình ngôn ngữ lớn hơn trên máy chủ. Chúng được tối ưu để thực hiện các tác vụ chuyên biệt một cách hiệu quả, chính xác và có trách nhiệm.
- Apple phát triển AI dựa trên các nguyên tắc AI có trách nhiệm như trao quyền cho người dùng, đại diện đa dạng người dùng, thiết kế cẩn trọng, bảo vệ quyền riêng tư. Họ không sử dụng dữ liệu cá nhân riêng tư của người dùng khi huấn luyện mô hình.
- Các mô hình được tiền huấn luyện trên dữ liệu được cấp phép và dữ liệu công khai, áp dụng các bộ lọc để loại bỏ thông tin nhận dạng cá nhân và nội dung chất lượng thấp. Sau huấn luyện, chúng được tinh chỉnh bằng các thuật toán mới như rejection sampling và RLHF.
- Nhiều kỹ thuật tối ưu như quantization, latency analysis được áp dụng để cải thiện hiệu năng và hiệu quả năng lượng trên thiết bị. Thời gian suy luận token đầu tiên đạt 0.6ms và tốc độ sinh 30 token/giây trên iPhone 15 Pro.
- Adapters, các mô-đun mạng neural nhỏ, được sử dụng để tinh chỉnh mô hình cho các tác vụ cụ thể. Chúng có thể được tải động và hoán đổi, cho phép mô hình chuyên biệt hóa linh hoạt cho từng tác vụ.
- Các mô hình được đánh giá kỹ lưỡng bằng cách so sánh với các mô hình mã nguồn mở và thương mại có kích thước tương đương. Chúng vượt trội hơn hầu hết các mô hình về chất lượng theo đánh giá của con người.
- Các mô hình cũng được kiểm tra với các prompt thù địch đa dạng về nội dung có hại, chủ đề nhạy cảm và tính xác thực. Chúng đạt tỷ lệ vi phạm thấp hơn so với các mô hình khác. Khả năng viết tóm tắt và sáng tác của các mô hình cũng được đánh giá cao trên các bộ dữ liệu chuẩn nội bộ.
- Ngoài ra, Apple cũng giới thiệu một mô hình lập trình để tích hợp trí tuệ nhân tạo vào Xcode và một mô hình khuếch tán để hỗ trợ người dùng thể hiện bản thân một cách trực quan, ví dụ như trong ứng dụng Messages.
📌 Tại WWDC 2024, Apple đã giới thiệu các mô hình nền tảng trên thiết bị và máy chủ, tạo nên Apple Intelligence - hệ thống AI cá nhân mạnh mẽ tích hợp sâu vào iOS 18, iPadOS 18 và macOS Sequoia. Các mô hình này được phát triển có trách nhiệm theo các nguyên tắc cốt lõi của Apple, tối ưu cho hiệu năng và hiệu quả năng lượng, đồng thời vượt trội hơn hầu hết các mô hình tương đương về chất lượng và tính an toàn. Apple cũng giới thiệu thêm các mô hình lập trình và khuếch tán để mở rộng khả năng hỗ trợ người dùng và nhà phát triển.
https://machinelearning.apple.com/research/introducing-apple-foundation-models
- Công ty khởi nghiệp đánh giá AI tạo sinh Galileo Technologies Inc. ra mắt dòng mô hình nền tảng đánh giá Luna EFM, được điều chỉnh để đánh giá hiệu suất của các mô hình ngôn ngữ lớn như GPT-4 của OpenAI và Gemini Pro của Google.
- Các mô hình Luna EFM được phát triển để đáp ứng xu hướng sử dụng AI đánh giá AI trong ngành. Mỗi mô hình được tinh chỉnh để thực hiện một nhiệm vụ đánh giá cụ thể như phát hiện "ảo giác", rò rỉ dữ liệu, lỗi chất lượng ngữ cảnh và lời nhắc độc hại.
- Galileo cho rằng Luna EFM nhanh hơn, tiết kiệm chi phí hơn và chính xác hơn so với GPT-4 hoặc đánh giá của con người. Luna có thể đánh giá hàng triệu phản hồi mỗi tháng, rẻ hơn 97%, nhanh hơn 11 lần và chính xác hơn 18% so với GPT-3.5 của OpenAI.
- Trong các bài kiểm tra, Luna EFM vượt trội hơn các mô hình đánh giá hiện có về độ chính xác tổng thể lên đến 20%. Chi phí tính toán đánh giá thấp hơn 30 lần so với GPT-3.5. Kết quả đánh giá được đưa ra chỉ trong vài mili giây.
- Luna EFM cũng cung cấp khả năng giải thích các đánh giá của nó, giúp hợp lý hóa quy trình phân tích nguyên nhân gốc rễ và gỡ lỗi.
- Các công ty lớn như HP Inc. đánh giá cao Luna EFM vì công cụ đánh giá mô hình chính xác là rất cần thiết để cung cấp các ứng dụng AI an toàn, đáng tin cậy.
- Luna EFM hiện đã có sẵn trên nền tảng Galileo Project và Galileo Evaluate, được sử dụng rộng rãi bởi nhiều ngân hàng Fortune 10 và các công ty Fortune 50.
📌 Galileo Technologies Inc. đã ra mắt dòng mô hình nền tảng đánh giá Luna EFM, vượt trội hơn các giải pháp hiện có về độ chính xác (cao hơn 20%), chi phí (thấp hơn 30 lần), tốc độ (chỉ vài mili giây) và khả năng giải thích. Luna EFM đang được các công ty lớn như HP Inc. và nhiều ngân hàng, tập đoàn hàng đầu sử dụng rộng rãi.
https://siliconangle.com/2024/06/06/ai-accuracy-startup-galileos-new-llm-family-designed-evaluate-llms
- Prometheus-Eval là một công cụ đánh giá mô hình ngôn ngữ tiên tiến, cung cấp khung đánh giá mạnh mẽ và minh bạch.
- Nó hỗ trợ cả phương pháp chấm điểm tuyệt đối (từ 1 đến 5) và tương đối (so sánh các câu trả lời).
- Prometheus-Eval mô phỏng được đánh giá của con người và các mô hình đánh giá độc quyền, đảm bảo tính công bằng và khả năng tiếp cận.
- Prometheus 2, phiên bản cải tiến của Prometheus-Eval, đạt độ tương quan Pearson từ 0.6 đến 0.7 với GPT-4-1106 trên thang đo Likert 5 điểm.
- Prometheus 2 đạt độ đồng thuận từ 72% đến 85% với đánh giá của con người trên nhiều bộ dữ liệu xếp hạng theo cặp.
- Phiên bản Prometheus 2 (8x7B) chỉ yêu cầu 16 GB VRAM, phù hợp để chạy trên GPU tiêu dùng, giúp mở rộng khả năng sử dụng.
- Phiên bản nhẹ hơn Prometheus 2 (7B) đạt ít nhất 80% hiệu suất so với mô hình 8x7B.
- Gói Prometheus-Eval cung cấp giao diện đơn giản để đánh giá các cặp hướng dẫn-phản hồi bằng Prometheus 2, hỗ trợ chấm điểm hàng loạt.
📌 Prometheus-Eval và Prometheus 2 đáp ứng nhu cầu cấp thiết về công cụ đánh giá đáng tin cậy và minh bạch trong NLP. Prometheus 2 cung cấp khả năng đánh giá tiên tiến với các chỉ số hiệu suất ấn tượng, cho phép các nhà nghiên cứu đánh giá mô hình tự tin hơn với công cụ toàn diện và dễ tiếp cận.
https://www.marktechpost.com/2024/05/22/prometheus-eval-and-prometheus-2-setting-new-standards-in-llm-evaluation-and-open-source-innovation-with-state-of-the-art-evaluator-language-model/
- **TIGER-Lab** đã giới thiệu bộ dữ liệu **MMLU-Pro** nhằm cung cấp một tiêu chuẩn đánh giá toàn diện và nghiêm ngặt hơn cho các mô hình ngôn ngữ lớn (LLMs).
- **MMLU-Pro** tăng số lượng lựa chọn câu trả lời từ 4 lên 10 cho mỗi câu hỏi, nâng cao độ phức tạp và tính hiện thực của đánh giá.
- Bộ dữ liệu mới tập trung nhiều hơn vào các câu hỏi yêu cầu lý luận, khắc phục những hạn chế của bộ dữ liệu MMLU ban đầu.
- Quá trình xây dựng **MMLU-Pro** bao gồm việc lọc các câu hỏi thách thức và liên quan nhất từ bộ dữ liệu MMLU gốc.
- Số lượng lựa chọn câu trả lời được tăng từ 4 lên 10 bằng cách sử dụng GPT-4, một mô hình AI tiên tiến.
- Quá trình tăng cường này không chỉ đơn thuần là thêm nhiều lựa chọn mà còn tạo ra các lựa chọn gây nhiễu hợp lý, yêu cầu khả năng phân biệt lý luận để giải quyết.
- Các câu hỏi trong bộ dữ liệu được lấy từ các trang web STEM chất lượng cao, các bộ dữ liệu QA dựa trên định lý và các kỳ thi khoa học cấp đại học.
- Mỗi câu hỏi đã trải qua quá trình xem xét nghiêm ngặt bởi một hội đồng gồm hơn mười chuyên gia để đảm bảo độ chính xác, công bằng và phức tạp.
- Hiệu suất của các mô hình AI khác nhau trên bộ dữ liệu **MMLU-Pro** đã được đánh giá, cho thấy sự khác biệt đáng kể so với điểm số MMLU ban đầu.
- Ví dụ, độ chính xác của GPT-4 trên **MMLU-Pro** là 71,49%, giảm đáng kể so với điểm số MMLU ban đầu là 88,7%, giảm 17,21%.
- Các mô hình khác như GPT-4-Turbo-0409 giảm từ 86,4% xuống 62,58%, và hiệu suất của Claude-3-Sonnet giảm từ 81,5% xuống 57,93%.
- **MMLU-Pro** đánh dấu một bước tiến quan trọng trong việc đánh giá AI, cung cấp một tiêu chuẩn nghiêm ngặt thách thức các LLMs với các câu hỏi phức tạp, tập trung vào lý luận.
📌 MMLU-Pro của TIGER-Lab là một bước đột phá trong đánh giá mô hình ngôn ngữ lớn, với độ chính xác của GPT-4 giảm từ 88,7% xuống 71,49%, cho thấy độ khó tăng lên đáng kể. Bộ dữ liệu này tập trung vào các câu hỏi lý luận và được xem xét bởi các chuyên gia, đảm bảo tính chính xác và công bằng.
Citations:
[1] https://www.marktechpost.com/2024/05/16/tiger-lab-introduces-mmlu-pro-dataset-for-comprehensive-benchmarking-of-large-language-models-capabilities-and-performance/
- Nhóm nghiên cứu từ KAIST AI, LG AI Research, Carnegie Mellon University, MIT, Allen Institute for AI và University of Illinois Chicago giới thiệu Prometheus 2, một công cụ đánh giá mô hình ngôn ngữ nguồn mở mới.
- Prometheus 2 được phát triển để cung cấp đánh giá minh bạch, có thể mở rộng và kiểm soát được, đồng thời đạt chất lượng tương đương với các mô hình độc quyền.
- Mô hình được tạo ra bằng cách kết hợp hai mô hình đánh giá: một mô hình được huấn luyện chuyên biệt cho đánh giá trực tiếp và một mô hình cho xếp hạng theo cặp.
- Nhóm nghiên cứu sử dụng bộ dữ liệu Preference Collection mới với 1.000 tiêu chí đánh giá để tinh chỉnh khả năng của mô hình.
- Trên 4 bài kiểm tra xếp hạng theo cặp (HHH Alignment, MT Bench Human Judgment, Auto-J Eval và Preference Bench), Prometheus 2 vượt trội hơn các mô hình nguồn mở hiện có, đạt độ chính xác trên 85%.
- Prometheus 2 thu hẹp khoảng cách hiệu suất với các công cụ đánh giá độc quyền như GPT-4 trên nhiều bài kiểm tra. Mô hình giảm một nửa sự khác biệt tương quan giữa con người và GPT-4 trên bài kiểm tra FLASK và đạt độ chính xác 84% trong đánh giá HHH Alignment.
📌 Prometheus 2, một công cụ đánh giá mô hình ngôn ngữ nguồn mở mới, đạt hiệu suất vượt trội so với các mô hình nguồn mở hiện có trên nhiều bài kiểm tra, thu hẹp đáng kể khoảng cách với GPT-4. Kết hợp hai mô hình đánh giá trực tiếp và xếp hạng theo cặp, Prometheus 2 đạt độ chính xác trên 85% và giảm một nửa sự khác biệt tương quan so với GPT-4 trên bài kiểm tra FLASK.
Citations:
[1] https://www.marktechpost.com/2024/05/04/prometheus-2-an-open-source-language-model-that-closely-mirrors-human-and-gpt-4-judgements-in-evaluating-other-language-models/
- Các nhà nghiên cứu từ Scale AI đã giới thiệu GSM1k, một tiêu chuẩn mới được tạo ra để đo lường mức độ quá khớp và khả năng suy luận trong các mô hình ngôn ngữ lớn (LLM).
- Các nhà nghiên cứu đã phát triển tiêu chuẩn này bằng cách tạo ra 1.250 bài toán sơ cấp có độ phức tạp và nội dung tương tự như các tiêu chuẩn hiện có như GSM8k.
- Mục tiêu của tiêu chuẩn là xác định xem các mô hình dựa vào ghi nhớ hay có khả năng suy luận thực sự bằng cách so sánh hiệu suất của mô hình trên các tập dữ liệu tương tự nhưng khác biệt.
- Các nhà nghiên cứu so sánh kết quả của các mô hình trên GSM1k và GSM8k để đo lường sự khác biệt về hiệu suất, nhấn mạnh cách các mô hình giải quyết vấn đề thay vì ghi nhớ câu trả lời.
- Cách thiết lập này cung cấp một hiểu biết rõ ràng về khả năng của mô hình và xác định sự quá khớp có hệ thống.
- Nghiên cứu cung cấp một cách tiếp cận mới để đánh giá khả năng giải thích và hiệu suất của mô hình thông qua GSM1k, một tiêu chuẩn được thiết kế để đo lường khả năng suy luận trong các mô hình học máy.
- Bằng cách so sánh kết quả với tập dữ liệu GSM8k hiện có, các nhà nghiên cứu đã phát hiện ra các mức độ quá khớp và suy luận khác nhau trên các mô hình khác nhau.
📌 GSM1k, tiêu chuẩn mới từ Scale AI, giúp phân biệt khả năng suy luận thực sự và ghi nhớ trong các mô hình ngôn ngữ lớn. Nghiên cứu cho thấy sự cần thiết phải cải thiện các phương pháp giải thích mô hình và định hướng cho sự phát triển trong tương lai của học máy.
Citations:
[1] https://www.marktechpost.com/2024/05/04/this-ai-paper-by-scale-ai-introduces-gsm1k-for-measuring-reasoning-accuracy-in-large-language-models-llms/
- Các nhà nghiên cứu từ Reka Technologies đã giới thiệu Vibe-Eval, một tiêu chuẩn đánh giá tiên tiến cho các mô hình ngôn ngữ đa phương thức AI.
- Vibe-Eval nổi bật với khung đánh giá có cấu trúc, kiểm tra chặt chẽ khả năng hiểu biết trực quan của các mô hình.
- Tập dữ liệu "hard set" tập trung vào lập luận tinh tế và hiểu ngữ cảnh, tạo sự khác biệt so với các tiêu chuẩn khác.
- Các mô hình ngôn ngữ đa phương thức kết hợp thông tin hình ảnh và văn bản để giải thích, lập luận trên dữ liệu phức tạp.
- Chúng hứa hẹn những tiến bộ đáng kể trong ứng dụng AI vào cuộc sống hàng ngày.
- Khi các mô hình ngày càng phức tạp, cần có tiêu chuẩn đánh giá chính xác, thách thức để đo lường khả năng giải quyết các tác vụ thực tế.
- Vibe-Eval sử dụng 269 prompt hình ảnh, chia thành tập "normal" và "hard", kèm theo các câu trả lời chuẩn do chuyên gia xây dựng.
- Reka Core, công cụ đánh giá dựa trên văn bản, cho điểm hiệu suất mô hình từ 1-5 dựa trên độ chính xác so với câu trả lời chuẩn.
- Các mô hình được thử nghiệm bao gồm Gemini Pro 1.5 của Google, GPT-4V của OpenAI, và nhiều mô hình khác.
📌 Vibe-Eval của Reka AI là một bộ công cụ đánh giá toàn diện và thách thức cho các mô hình AI đa phương thức. Với 269 prompt hình ảnh được chia thành 2 tập dữ liệu, cùng phương pháp đánh giá tự động và thủ công, Vibe-Eval hứa hẹn cung cấp đánh giá chính xác về khả năng hiểu biết trực quan và lập luận tinh tế của từng mô hình.
Citations:
[1] https://www.marktechpost.com/2024/05/02/this-ai-paper-by-reka-ai-introduces-vibe-eval-a-comprehensive-suite-for-evaluating-ai-multimodal-models/
- Mô hình ngôn ngữ lớn (LLMs) đang ngày càng được sử dụng rộng rãi, đặt ra những rủi ro an ninh mạng mới do khả năng sinh mã và triển khai mã thời gian thực.
- Các rủi ro bao gồm việc thực thi tự động trong các trình thông dịch mã và tích hợp vào các ứng dụng xử lý dữ liệu không đáng tin cậy.
- Điều này đòi hỏi một cơ chế đánh giá an ninh mạng vững chắc. Các công trình trước đây bao gồm các khung đánh giá mở và các bài báo đề xuất tiêu chí đánh giá.
- CyberSecEval 2 là một chuẩn mực mới được Meta AI giới thiệu để đánh giá rủi ro và khả năng an ninh của LLMs, bao gồm các bài kiểm tra như tiêm mã độc và lạm dụng trình thông dịch mã.
- Chuẩn mực này sử dụng mã nguồn mở, giúp đánh giá các LLM khác. Nghiên cứu cũng giới thiệu khái niệm về sự đánh đổi giữa an toàn và tiện ích, được định lượng bởi Tỷ lệ Từ Chối Sai (FRR).
- Trong các bài kiểm tra của CyberSecEval 2, tỷ lệ tuân thủ của LLM đối với các yêu cầu hỗ trợ tấn công mạng đã giảm từ 52% xuống còn 28%, cho thấy sự nhận thức ngày càng tăng về các vấn đề an ninh.
- Các mô hình không chuyên về mã như Llama 3 cho thấy tỷ lệ không tuân thủ tốt hơn, trong khi CodeLlama-70b-Instruct tiếp cận hiệu suất hàng đầu.
- Đánh giá FRR cho thấy sự khác biệt, với 'codeLlama-70B' có FRR đáng chú ý cao.
- Nghiên cứu kết luận rằng CyberSecEval 2 là một bộ đánh giá toàn diện để đánh giá các rủi ro an ninh mạng của LLM.
📌 CyberSecEval 2 của Meta AI là một chuẩn mực đánh giá mới cho an ninh mạng của các mô hình ngôn ngữ lớn, giúp đánh giá rủi ro và khả năng an ninh. Các bài kiểm tra cho thấy sự cải thiện trong nhận thức về an ninh, với tỷ lệ tuân thủ giảm đáng kể từ 52% xuống 28%. Chuẩn mực này cũng giới thiệu khái niệm về sự đánh đổi giữa an toàn và tiện ích, được minh họa qua Tỷ lệ Từ Chối Sai.
Citations:
[1] https://www.marktechpost.com/2024/05/01/meta-ai-introduces-cyberseceval-2-a-novel-machine-learning-benchmark-to-quantify-llm-security-risks-and-capabilities/
- Flatiron Software đã ra mắt Snapshot Reviews, một công cụ AI giúp các nhà quản lý kỹ thuật đánh giá chất lượng mã, mức độ tham gia và năng suất của từng nhà phát triển trong nhóm.
- Snapshot Reviews tích hợp với các nền tảng quản lý mã nguồn như GitHub, GitLab và Bitbucket, phân tích dữ liệu từ các kho lưu trữ mã và cung cấp thông tin chi tiết về hiệu suất của nhà phát triển.
- Công cụ này sử dụng các thuật toán học máy để đánh giá chất lượng mã dựa trên các chỉ số như độ phức tạp, khả năng đọc và tính dễ bảo trì của mã.
- Snapshot Reviews cũng theo dõi mức độ tham gia của từng nhà phát triển, bao gồm số lượng commit, pull request và thời gian phản hồi trung bình.
- Dữ liệu được trình bày thông qua các biểu đồ và bảng điều khiển trực quan, giúp các nhà quản lý dễ dàng theo dõi hiệu suất của nhóm và xác định các lĩnh vực cần cải thiện.
- Flatiron Software cho biết Snapshot Reviews có thể giúp các nhà quản lý tiết kiệm thời gian trong việc đánh giá mã, đồng thời cung cấp phản hồi khách quan và nhất quán cho các nhà phát triển.
- Công ty cũng nhấn mạnh tầm quan trọng của việc sử dụng dữ liệu để thúc đẩy cải tiến quy trình và nâng cao chất lượng sản phẩm trong các nhóm phát triển phần mềm.
📌 Flatiron Software đã giới thiệu Snapshot Reviews, một công cụ AI mới giúp phân tích chất lượng mã, mức độ tham gia và năng suất của từng lập trình viên. Công cụ này tích hợp với các nền tảng quản lý mã nguồn, sử dụng học máy để đánh giá mã và cung cấp thông tin chi tiết thông qua các biểu đồ trực quan, hứa hẹn tiết kiệm thời gian cho các nhà quản lý và thúc đẩy cải tiến trong các nhóm phát triển phần mềm.
Citations:
[1] https://venturebeat.com/ai/flatiron-software-unveils-snapshot-reviews-an-ai-tool-for-analyzing-developer-code-and-performance/
- DeepMind, một công ty con của Google, đã phát triển một chuẩn kiểm thử mới có tên là Gecko, dành riêng cho việc đánh giá các bộ sinh ảnh AI.
- Gecko được thiết kế để đánh giá chất lượng và độ tin cậy của các mô hình sinh ảnh, một lĩnh vực đang ngày càng trở nên quan trọng trong ngành công nghệ AI.
- Chuẩn mới này bao gồm một loạt các bài kiểm tra khác nhau, từ đánh giá độ chính xác của màu sắc đến khả năng tái tạo chi tiết phức tạp trong các ảnh được sinh ra bởi AI.
- Gecko cũng tích hợp các phương pháp đánh giá mới như độ đa dạng của ảnh sinh ra và khả năng sinh ảnh dưới các điều kiện ánh sáng khác nhau.
- Một trong những mục tiêu chính của Gecko là cung cấp một công cụ khách quan để so sánh hiệu suất giữa các mô hình sinh ảnh khác nhau, giúp các nhà phát triển cải thiện chất lượng sản phẩm AI của họ.
- DeepMind hy vọng rằng, với việc áp dụng rộng rãi Gecko, ngành công nghệ AI sẽ có được một tiêu chuẩn chung cho việc kiểm định chất lượng các sản phẩm sinh ảnh, từ đó nâng cao độ tin cậy và an toàn của công nghệ sinh ảnh AI.
- Gecko không chỉ giúp nhận diện các lỗi và hạn chế trong các mô hình hiện tại mà còn đóng góp vào việc phát triển các tiêu chuẩn mới cho các thế hệ mô hình AI tương lai.
📌 Gecko, chuẩn kiểm thử mới của DeepMind, được thiết kế để nâng cao chất lượng và độ tin cậy của các bộ sinh ảnh AI. Chuẩn này bao gồm các bài kiểm tra đa dạng, từ đánh giá màu sắc đến chi tiết phức tạp, và hứa hẹn sẽ trở thành tiêu chuẩn công nghiệp, góp phần vào sự phát triển của công nghệ AI.
Citations:
[1] https://venturebeat.com/ai/googles-deepmind-creates-gecko-a-rigorous-new-standard-for-testing-ai-image-generators/
- Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) đã công bố một chương trình mới để đánh giá công nghệ AI tạo sinh (GenAI) và phát hành nhiều tài liệu dự thảo về việc sử dụng công nghệ này.
- Chương trình "NIST GenAI" được thiết kế để hỗ trợ công việc của Viện An toàn AI của Mỹ tại NIST, với việc đăng ký cho phiên bản thử nghiệm sẽ bắt đầu vào tháng Năm.
- Các hành động được công bố bao gồm việc giảm thiểu rủi ro của AI và tập trung đặc biệt vào AI tạo sinh, phù hợp với lệnh hành pháp về AI của Tổng thống Joe Biden vào tháng Mười.
- 4 tài liệu được NIST phát hành bao gồm một phiên bản dự thảo nhằm giúp xác định rủi ro của GenAI và chiến lược sử dụng công nghệ này.
- Tài liệu này sẽ là bản đồng hành cho khung quản lý rủi ro AI đã được công bố trước đó, được phát triển với sự đóng góp từ một nhóm công tác công khai có hơn 2.500 thành viên (https://airc.nist.gov/docs/NIST.AI.100-4.SyntheticContent.ipd.pdf)
- NIST cũng phát hành các tài liệu dự thảo về giảm thiểu rủi ro của nội dung tổng hợp — nội dung được tạo hoặc chỉnh sửa bởi AI — và kế hoạch phát triển các tiêu chuẩn liên quan (https://airc.nist.gov/docs/NIST.AI.100-5.Global-Plan.ipd.pdf)
- Bà Laurie E. Locascio, giám đốc NIST và thứ trưởng thương mại phụ trách tiêu chuẩn và công nghệ, nhấn mạnh rằng mặc dù AI tạo sinh mang lại nhiều lợi ích tiềm năng, nó cũng đem theo những rủi ro đáng kể khác biệt so với phần mềm truyền thống.
📌 Viện tiêu chuẩn quốc gia Mỹ NIST đã ra mắt chương trình "NIST GenAI" để đánh giá công nghệ AI tạo sinh, cùng với việc phát hành các tài liệu dự thảo nhằm giảm thiểu rủi ro và phát triển tiêu chuẩn cho công nghệ này. Chương trình này hỗ trợ sáng kiến an toàn AI của Mỹ và nhấn mạnh sự cần thiết của sự minh bạch và phản hồi từ tất cả các bên liên quan.
Citations:
[1] https://fedscoop.com/nist-launches-genai-evaluation-program-releases-draft-ai-publications/
- Các công cụ AI tiên tiến như ChatGPT, Gemini và Claude đang gây ra nhiều nghi vấn về mức độ thông minh thực sự của chúng.
- Ngành công nghiệp AI khác biệt so với các lĩnh vực khác như sản xuất ô tô, dược phẩm hay sữa công thức ở chỗ các công ty AI không bắt buộc phải thử nghiệm sản phẩm trước khi tung ra thị trường.
- Không có tổ chức độc lập nào kiểm định chất lượng cho các chatbot AI. Thay vào đó, chúng ta phải tin vào những tuyên bố mơ hồ của các công ty AI về "khả năng nâng cao" giữa các phiên bản.
- Mặc dù có các bài kiểm tra chuẩn để đánh giá trình độ toán học hay lập luận logic của các mô hình AI, nhiều chuyên gia nghi ngờ tính hợp lệ của chúng.
- Thiếu các phương pháp đánh giá đáng tin cậy cho AI gây khó khăn cho người dùng trong việc đưa ra quyết định sử dụng công cụ nào cho từng tác vụ cụ thể.
- Vấn đề đo lường và đánh giá AI là một mối quan tâm cấp bách cần được chú ý giải quyết. Chính phủ cần xây dựng các chương trình kiểm tra năng lực và rủi ro của AI. Các công ty AI cần minh bạch và hợp tác với bên thứ ba để đánh giá sản phẩm.
📌 Sự thiếu vắng các tiêu chuẩn đo lường và đánh giá đáng tin cậy đối với các hệ thống AI tiên tiến như ChatGPT, Gemini, Claude đang gây ra nhiều câu hỏi về mức độ thông minh thực sự của chúng, đồng thời tạo khó khăn cho người dùng trong việc lựa chọn công cụ phù hợp. Đây là một vấn đề cấp bách cần sự chung tay của chính phủ, các công ty AI và giới nghiên cứu.
Citations:
[1] https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/131695/6c0f3101-aece-4db8-bdc4-5ee3f9757591/paste.txt
https://www.nytimes.com/2024/04/15/technology/ai-models-measurement.html
- ViLLM-Eval là bộ đánh giá toàn diện đầu tiên được thiết kế riêng để đo lường kiến thức và khả năng lập luận của các mô hình ngôn ngữ lớn trong bối cảnh tiếng Việt.
- Bộ dữ liệu gồm 32.296 mẫu dữ liệu, bao gồm các câu hỏi trắc nghiệm và tác vụ dự đoán từ tiếp theo ở nhiều cấp độ khó, đa dạng lĩnh vực từ khoa học nhân văn đến khoa học kỹ thuật.
- Cụ thể, ViLLM-Eval gồm 4 tập dữ liệu con: LAMBADA_vi (10.246 mẫu), Exam (19.150 mẫu), General Knowledge (2.000 mẫu) và Comprehension QA (900 mẫu).
- Các câu hỏi được thiết kế phản ánh kiến thức và kỹ năng lập luận liên quan đến người dùng Việt Nam, bao gồm văn hóa, lịch sử và các vấn đề hiện tại của Việt Nam.
- Đánh giá trên 10 mô hình tiên tiến nhất cho thấy ngay cả mô hình tốt nhất là ChatGPT cũng chỉ đạt độ chính xác 74,21% trên tác vụ Comprehension QA, cho thấy còn nhiều điểm cần cải thiện trong việc hiểu và trả lời các tác vụ ngôn ngữ tiếng Việt.
- ViLLM-Eval được tin là sẽ giúp xác định điểm mạnh, điểm yếu then chốt của các mô hình nền tảng, thúc đẩy sự phát triển và nâng cao hiệu suất của chúng cho người dùng Việt Nam.
- Bài báo cung cấp tổng quan toàn diện về ViLLM-Eval như một phần của tác vụ chia sẻ Mô hình ngôn ngữ lớn tiếng Việt, được tổ chức trong Hội thảo quốc tế lần thứ 10 về Xử lý ngôn ngữ và Lời nói tiếng Việt (VLSP 2023).
📌 ViLLM-Eval là bộ dữ liệu đánh giá toàn diện đầu tiên dành riêng cho các mô hình ngôn ngữ lớn tiếng Việt. Với 32.296 mẫu dữ liệu đa dạng trải rộng trên 4 tập con, ViLLM-Eval hứa hẹn sẽ là thước đo quan trọng để thúc đẩy sự phát triển của các mô hình AI tiếng Việt. Tuy nhiên, kết quả đánh giá cho thấy ngay cả mô hình tốt nhất hiện nay là ChatGPT cũng chỉ đạt độ chính xác tối đa 74,21%, cho thấy còn nhiều thách thức cần giải quyết để các mô hình ngôn ngữ lớn thực sự thông minh và hữu ích hơn cho người dùng Việt Nam.
Citations:
[1] https://arxiv.org/abs/2404.11086
#hay
- Hugging Face, một startup AI, đã giới thiệu Open Medical-LLM, một bài kiểm tra đánh giá mới để chuẩn hóa việc đánh giá hiệu suất của các mô hình AI tạo sinh trong các tác vụ liên quan đến y tế.
- Open Medical-LLM là sự hợp tác giữa các nhà nghiên cứu từ Open Life Science AI và Nhóm Xử lý Ngôn ngữ Tự nhiên của Đại học Edinburgh.
- Bài kiểm tra này tổng hợp các bộ dữ liệu kiểm tra hiện có như MedQA, PubMedQA và nhiều bộ dữ liệu khác.
- Clémentine Fourrier, nhà nghiên cứu tại Hugging Face, cho rằng các bảng xếp hạng chỉ nên là điểm khởi đầu để khám phá một trường hợp sử dụng cụ thể, sau đó cần có giai đoạn kiểm tra kỹ lưỡng hơn để xem xét các hạn chế và tính phù hợp của mô hình trong điều kiện thực tế.
- Các mô hình y tế không nên được bệnh nhân sử dụng độc lập mà thay vào đó nên đóng vai trò là công cụ hỗ trợ cho các chuyên gia y tế.
- Kinh nghiệm từ nỗ lực của Google trong việc giới thiệu công cụ sàng lọc bệnh võng mạc tiểu đường tại Thái Lan là một câu chuyện cảnh báo. Mặc dù có độ chính xác lý thuyết cao, công cụ này đã không khả thi trong thử nghiệm thực tế.
- Đáng chú ý là không có thiết bị y tế liên quan đến AI nào trong số 139 thiết bị được FDA Hoa Kỳ phê duyệt sử dụng AI tạo sinh.
📌 Open Medical-LLM của Hugging Face là một bước tiến quan trọng trong việc đánh giá tiêu chuẩn hóa hiệu suất của AI tạo sinh trong y tế. Tuy nhiên, các bảng xếp hạng chỉ nên là điểm khởi đầu, và cần có các thử nghiệm kỹ lưỡng trong điều kiện thực tế trước khi triển khai rộng rãi. Kinh nghiệm từ công cụ sàng lọc của Google tại Thái Lan cho thấy tầm quan trọng của việc kiểm tra tính khả thi và tương thích với thực tiễn.
Citations:
[1] https://techcrunch.com/2024/04/18/hugging-face-releases-a-benchmark-for-testing-generative-ai-on-health-tasks/
- FastLLM (FLLM), mô hình ngôn ngữ nhẹ của Qdrant được thiết kế cho các ứng dụng RAG, đã chính thức ra mắt Early Access.
- FLLM cung cấp cửa sổ ngữ cảnh 1 tỷ token, vượt xa các LLM trước đây chỉ xử lý được vài triệu token.
- Kiến trúc tối ưu của FLLM kết hợp với khả năng mở rộng của Qdrant giúp các ứng dụng AI xử lý khối lượng dữ liệu khổng lồ.
- FLLM được huấn luyện trên 300.000 GPU NVIDIA H100 kết nối bởi Infiniband 5Tbps, mất hàng tuần để hoàn thành.
- Trên các bài kiểm tra chuẩn, FLLM vượt trội hơn mọi mô hình hiện có, đạt độ chính xác 100% trong bài kiểm tra Needle In A Haystack (NIAH).
- FLLM sử dụng kiến trúc mixture-of-experts tinh vi và có tổng cộng 1 nghìn tỷ tham số.
- Qdrant tin rằng FLLM sẽ bỏ xa các đối thủ cạnh tranh và trở thành mô hình mạnh nhất trong năm tới.
- Khách hàng có thể tham gia chương trình Early Access của FastLLM để trải nghiệm sự đổi mới AI.
📌 FastLLM của Qdrant, với cửa sổ ngữ cảnh 1 tỷ token và kiến trúc tối ưu, hứa hẹn cách mạng hóa cách các ứng dụng AI doanh nghiệp tạo và truy xuất nội dung ở quy mô lớn. Mô hình đạt độ chính xác 100% trên bài kiểm tra NIAH và sở hữu 1 nghìn tỷ tham số, vượt trội hơn mọi đối thủ.
https://qdrant.tech/blog/fastllm-announcement/
- MLPerf 4.0 là bản cập nhật mới nhất của chuẩn đánh giá hiệu năng suy luận AI, lần đầu tiên bao gồm mô hình ngôn ngữ lớn Llama 2 70 tỷ tham số và tạo ảnh với Stable Diffusion.
- Nvidia gần như tăng gấp 3 lần hiệu năng suy luận cho tóm tắt văn bản với mô hình GPT-J trên GPU H100 Hopper, chỉ trong vòng 6 tháng.
- GPU H200 mới của Nvidia cho kết quả nhanh hơn đến 45% so với H100 khi đánh giá bằng Llama 2.
- Bộ xử lý Intel Xeon thế hệ thứ 5 nhanh hơn 1,42 lần so với thế hệ thứ 4 trên nhiều hạng mục MLPerf, và nhanh hơn đến 1,9 lần với GPT-J.
- Mặc dù kết quả thực tế của Intel Habana Gaudi thua kém Nvidia H100, công ty cho rằng nó cung cấp hiệu năng trên đơn vị giá tốt hơn.
- MLPerf giúp đo lường và cải thiện tốc độ, hiệu quả và độ chính xác cho AI, đồng thời hỗ trợ doanh nghiệp đưa ra quyết định sáng suốt khi mua hệ thống.
📌 Chuẩn đánh giá MLPerf 4.0 mới nhất cho thấy Nvidia đã tăng gấp 3 lần hiệu năng suy luận AI tạo sinh chỉ trong 6 tháng với GPU H100, trong khi Intel Xeon thế hệ thứ 5 nhanh hơn đến 1,9 lần so với thế hệ trước. Việc đo lường chuẩn hóa hiệu năng AI giúp thúc đẩy cải tiến và hỗ trợ các doanh nghiệp đưa ra lựa chọn đúng đắn.
https://venturebeat.com/ai/nvidia-triples-and-intel-doubles-generative-ai-inference-performance-on-new-mlperf-benchmark/
- Hầu hết các bài kiểm tra AI hiện nay chỉ tập trung vào một khía cạnh hẹp như khả năng trả lời câu hỏi, nhận dạng hình ảnh hay tạo văn bản, mà không đánh giá được năng lực tổng quát của AI.
- Các bài kiểm tra này thường được thiết kế cho các tác vụ cụ thể trong phòng thí nghiệm, không phản ánh được cách AI hoạt động trong thế giới thực với dữ liệu phức tạp và thay đổi liên tục.
- Việc so sánh hiệu suất giữa các mô hình AI khác nhau dựa trên các bài kiểm tra hẹp cũng gây nhiều tranh cãi, vì mỗi mô hình có thể được tối ưu cho các tác vụ khác nhau.
- Các nhà nghiên cứu đang kêu gọi phát triển các bài kiểm tra AI mới, tổng quát hơn, có thể đánh giá được khả năng học, lập luận, thích nghi và xử lý tri thức của AI một cách toàn diện.
- Một số nỗ lực gần đây như bài kiểm tra AGI (Artificial General Intelligence) hay bài kiểm tra "AI Đa nhiệm" đang cố gắng khắc phục những hạn chế trên, nhưng vẫn còn nhiều thách thức trong việc thiết kế và triển khai.
📌 Hầu hết các bài kiểm tra AI hiện tại đều bộc lộ nhiều hạn chế, chỉ đánh giá khả năng hẹp của AI trong các tác vụ cụ thể mà không phản ánh được năng lực tổng quát và khả năng hoạt động trong thế giới thực. Cần phát triển các phương pháp kiểm tra mới, tổng quát và toàn diện hơn để thúc đẩy sự tiến bộ thực sự của AI.
https://techcrunch.com/2024/03/07/heres-why-most-ai-benchmarks-tell-us-so-little/
#hay
📌 CRUXEval từ Meta AI đặt ra một chuẩn mực mới cho việc đánh giá các Large Language Models (LLMs) trong việc hiểu và thực thi mã. Với 800 mẫu được lựa chọn ngẫu nhiên, chuẩn mực này không chỉ giúp đánh giá khả năng của các mô hình mà còn mở ra cơ hội cho việc cải thiện chúng thông qua tinh chỉnh. GPT-4 của OpenAI hiện đang dẫn đầu với tỷ lệ pass@1 cao nhất, nhưng các mô hình khác như Code Llama 34B sau khi được tinh chỉnh cũng đạt được hiệu suất tương tự, cho thấy tiềm năng của việc tinh chỉnh dựa trên dữ liệu từ các mô hình mạnh mẽ hơn.