• Bài viết phân tích và xếp hạng các mô hình ngôn ngữ lớn (LLM) hàng đầu từ 4 gã khổng lồ AI: OpenAI, Meta, Anthropic và Google DeepMind dựa trên 13 tiêu chí khác nhau.
• Các LLM đang định hình lại nhiều ngành công nghiệp và tác động đáng kể đến các ứng dụng AI như trợ lý ảo, chatbot hỗ trợ khách hàng và dịch thuật.
• GPT-4o của OpenAI dẫn đầu về khả năng lập luận đa nhiệm vụ (MMLU) với điểm số 88,7%, theo sau là Llama 3.1 405b của Meta (88,6%) và Claude 3.5 Sonnet của Anthropic (88,3%).
• Trong lĩnh vực lập trình (HumanEval), Claude 3.5 Sonnet đứng đầu với độ chính xác 92%, tiếp theo là GPT-4o (90,2%) và Llama 3.1 405b (89%).
• Về khả năng toán học (MATH), GPT-4o dẫn đầu với 76,6%, Llama 3.1 405b đạt 73,8% và GPT-Turbo đạt 72,6%.
• Llama 3.1 8b có độ trễ thấp nhất (0,3 giây), theo sau là GPT-3.5-T và Llama 3.1 70b (0,4 giây).
• Về chi phí, Llama 3.1 8b là mô hình rẻ nhất với giá $0,05 (đầu vào) / $0,08 (đầu ra), tiếp theo là Gemini 1.5 Flash và GPT-4o-mini.
• Gemini 1.5 Flash có cửa sổ ngữ cảnh lớn nhất (1.000.000 token), Claude 3/3.5 (200.000 token) và GPT-4 Turbo + GPT-4o (128.000 token).
• Claude 3.5 Sonnet dẫn đầu về độ chính xác thực tế (92,5%), tính trung thực (91%) và an toàn (93%).
• GPT-4o đứng đầu về hiệu suất đa ngôn ngữ (92% trên XGLUE) và học không mẫu (88,5%).
• Claude 3.5 Sonnet được đánh giá cao nhất về các cân nhắc đạo đức và giảm thiểu thiên kiến (93%).
📌 Cuộc cạnh tranh giữa các LLM hàng đầu rất gay gắt, mỗi mô hình đều có thế mạnh riêng. Claude 3.5 Sonnet dẫn đầu về lập trình và an toàn, GPT-4o mạnh về lập luận đa nhiệm vụ và toán học, trong khi Llama 3.1 405b nổi bật với chi phí thấp và tốc độ cao. Việc lựa chọn mô hình phù hợp phụ thuộc vào nhu cầu cụ thể của từng ứng dụng.
https://www.marktechpost.com/2024/09/08/top-large-language-models-llms-a-comprehensive-ranking-of-ai-giants-across-13-metrics-including-multitask-reasoning-coding-math-latency-zero-shot-and-few-shot-learning-and-many-more/