Claude 3.7 Sonnet: đánh bại OpenAI o1, o3-mini và DeepSeek R1 trong lập trình

  • Anthropic vừa ra mắt Claude 3.7 Sonnet, mô hình AI mới nhất mà họ gọi là "mô hình suy luận lai đầu tiên trên thị trường", cho phép người dùng lựa chọn giữa phản hồi gần như tức thì và suy luận từng bước mở rộng.

  • Claude 3.7 Sonnet được cung cấp trên tất cả các gói Claude, bao gồm Free, Pro, Team và Enterprise, cũng như thông qua API của Anthropic, Amazon Bedrock và Google Cloud's Vertex AI.

  • Giá không thay đổi so với các mô hình trước, ở mức 3 USD cho một triệu token đầu vào và 15 USD cho một triệu token đầu ra, bao gồm cả token suy nghĩ.

  • Trong ứng dụng API, người dùng có thể định nghĩa ngân sách "suy nghĩ", giới hạn số token được sử dụng cho suy luận mở rộng lên đến tối đa 128.000 token.

  • Mô hình được tối ưu hóa cho các ứng dụng thực tế thay vì tập trung vào các nhiệm vụ kiểu cạnh tranh trong toán học và khoa học máy tính.

  • Theo Anthropic, Cursor đã ghi nhận Claude là "tốt nhất trong lớp cho các nhiệm vụ lập trình thực tế", trong khi các công ty như Cognition, Vercel, Replit và Canva đã báo cáo cải tiến trong phát triển full-stack, sử dụng công cụ và tạo mã sẵn sàng cho sản xuất.

  • Claude 3.7 Sonnet đạt hiệu suất tiên tiến trên SWE-bench Verified, một chuẩn đánh giá về giải quyết vấn đề phần mềm thực tế, và TAU-bench, đánh giá hiệu suất agent AI trong các tác vụ phức tạp.

  • Anthropic cũng giới thiệu Claude Code, một công cụ lập trình agent hiện đang trong giai đoạn xem trước nghiên cứu giới hạn, cho phép nhà phát triển tương tác với AI từ dòng lệnh.

  • Claude Code có khả năng tìm kiếm và đọc mã, chỉnh sửa tệp, viết và chạy thử nghiệm, và commit và push mã lên GitHub.

  • Về an toàn, Claude 3.7 Sonnet giảm 45% từ chối không cần thiết so với người tiền nhiệm và tích hợp các biện pháp phòng thủ mới chống lại các cuộc tấn công prompt injection.

  • Để kiểm tra khả năng, Claude 3.7 Sonnet đã chơi Pokémon Red, được trang bị bộ nhớ cơ bản, đầu vào pixel màn hình, và lệnh gọi hàm để nhấn nút và điều hướng trò chơi.

  • Claude 3.7 Sonnet đã thành công đánh bại ba Pokémon Gym Leader và giành được huy hiệu của họ.

📌 Claude 3.7 Sonnet là mô hình suy luận lai đầu tiên trên thị trường từ Anthropic, cho phép lựa chọn giữa phản hồi nhanh và suy luận sâu với ngân sách token lên đến 128.000. Mô hình này vượt trội trong lập trình thực tế, giảm từ chối 45% và đã chứng minh khả năng qua việc chơi thành công Pokémon Red.

 

https://analyticsindiamag.com/ai-news-updates/anthropic-releases-claude-3-7-sonnet-crushes-openai-o1-o3-mini-and-deepseek-r1-in-coding/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo