- Github copilot và Cursor là hai trợ lý lập trình AI phổ biến, mỗi công cụ có những điểm mạnh và hạn chế riêng
- Tính năng chính của Github copilot:
- Có phiên bản miễn phí cho người dùng Visual studio code
- Chỉnh sửa đa tệp tin với tính năng "Edit with copilot"
- Tùy chỉnh mã theo sở thích thông qua file cấu hình
- Tự động hoàn thành mã khi gõ
- Tự động hóa các lệnh terminal dựa trên đầu vào
- Tính năng nổi bật của Cursor:
- Tìm kiếm mã nguồn nhanh chóng ngay cả với dự án lớn
- Chế độ agent tự động chọn ngữ cảnh và chỉnh sửa nhiều file
- Cập nhật nhiều dòng mã một cách hiệu quả
- Tự động hóa quy trình làm việc từ đầu đến cuối
- Tạo mã sạch và dễ bảo trì hơn
- So sánh hiệu suất:
- Cursor vượt trội về tốc độ và độ chính xác trong sửa lỗi và cập nhật API
- Github copilot đôi khi gặp vấn đề với kết quả không đầy đủ hoặc không chính xác
- Cursor ổn định và đáng tin cậy hơn với các tác vụ phức tạp
- Giá cả:
- Github copilot: Miễn phí và gói trả phí từ 10 USD/tháng
- Cursor: 20 USD/tháng
- Các lựa chọn thay thế:
- Windsurf: Tính năng tương tự Cursor với giá cạnh tranh
- Devon: Tập trung vào phân tích và gỡ lỗi mã nguồn nâng cao
- Klein: Cung cấp tính năng đặc biệt cho môi trường lập trình cụ thể
📌 Cursor vượt trội về hiệu suất và độ tin cậy nhưng đắt hơn (20 USD/tháng) so với Github copilot (10 USD/tháng). Cursor phù hợp với dự án phức tạp đòi hỏi tốc độ và độ chính xác cao, trong khi Github copilot là lựa chọn tốt cho người mới bắt đầu và các tác vụ đơn giản.
https://www.geeky-gadgets.com/github-copilot-vs-cursor/
Github Copilot nổi bật với tích hợp liền mạch trong Visual Studio Code, cung cấp hỗ trợ mã hóa theo thời gian thực với các tính năng chính:
Tuy nhiên, Copilot đôi khi gặp vấn đề với độ trễ, chỉ mục hóa chậm, và đầu ra chưa hoàn chỉnh khi đối mặt với các tác vụ phức tạp. Điều này làm giảm hiệu quả trong các trường hợp đòi hỏi cao.
Cursor được thiết kế để khắc phục các hạn chế của các trợ lý AI khác, tập trung vào tốc độ, độ chính xác, và độ tin cậy. Các tính năng nổi bật:
Cursor nổi bật với chế độ tác nhân tự động chọn ngữ cảnh, giảm thiểu tác vụ thủ công, giúp tiết kiệm thời gian khi làm việc với mã nguồn lớn.
Cursor vượt trội hơn Github Copilot trong các tác vụ quan trọng như sửa lỗi và cập nhật API, nhờ độ chính xác và độ tin cậy cao. Copilot đôi khi gặp khó khăn với đầu ra chưa đầy đủ hoặc không chính xác.
Tuy nhiên, Copilot có lợi thế về tính khả dụng với gói miễn phí và giá khởi điểm thấp hơn, hấp dẫn các nhà phát triển hạn chế ngân sách hoặc mới làm quen với trợ lý AI.
Cursor cung cấp giao diện đơn giản, tích hợp liền mạch, tập trung vào mã hóa thay vì khắc phục lỗi công cụ. Với tính năng tự động hóa, ngay cả các tác vụ phức tạp cũng có thể được quản lý dễ dàng.
Trong khi đó, Github Copilot thân thiện với người dùng nhưng có thể hạn chế trong các trường hợp nâng cao. Phương pháp gắn thẻ thủ công của Copilot đôi khi làm chậm tiến trình, đặc biệt với các dự án lớn.
Cursor nổi bật hơn trong khả năng tự động hóa chọn ngữ cảnh và chỉnh sửa nhiều tệp, mang lại trải nghiệm mượt mà hơn.
Những nhà phát triển cần trợ lý AI cơ bản với giá cả hợp lý sẽ tìm thấy Copilot là lựa chọn hấp dẫn. Ngược lại, nếu ưu tiên tốc độ, độ chính xác và khả năng nâng cao, Cursor xứng đáng với chi phí cao hơn.
Nếu cả Github Copilot và Cursor không đáp ứng đủ nhu cầu, có thể xem xét các công cụ khác:
Lựa chọn giữa Github Copilot và Cursor phụ thuộc vào ưu tiên, nhu cầu lập trình, và ngân sách của bạn:
Đánh giá cẩn thận các tính năng, hiệu năng, và giá cả để chọn trợ lý AI phù hợp nhất, hỗ trợ mục tiêu phát triển của bạn và nâng cao hiệu suất làm việc.
- Google phát triển mô hình thử nghiệm Gemini 2.0 Flash Thinking, tập trung vào khả năng suy luận và giải quyết vấn đề phức tạp
- Đặc điểm nổi bật của Gemini 2.0:
- Tích hợp khả năng multimodal để xử lý văn bản, hình ảnh và nhiều loại dữ liệu khác
- Nhấn mạnh tính nhất quán logic và minh bạch trong quá trình ra quyết định
- Dẫn đầu bảng xếp hạng Chat Mod Arena về khả năng suy luận
- Phân tích vấn đề theo từng bước có cấu trúc rõ ràng
- Điểm mạnh của Gemini 2.0:
- Phân tích và giải quyết các vấn đề phức tạp theo cách có hệ thống
- Suy luận theo từng bước logic rõ ràng
- Khả năng lọc thông tin nhiễu và tập trung vào kết quả chính xác
- Thách thức và hạn chế:
- Gặp khó khăn với các nghịch lý logic như nghịch lý người thợ cắt tóc
- Xử lý chưa linh hoạt với các tình huống đạo đức phức tạp như bài toán xe điện
- Đôi khi làm phức tạp hóa các vấn đề đơn giản như bài toán qua sông
- Phụ thuộc nhiều vào dữ liệu huấn luyện sẵn có
- Ý nghĩa cho sự phát triển AI:
- Cần cải thiện khả năng thích ứng với tình huống mới
- Tính minh bạch trong suy luận giúp tăng độ tin cậy
- Hướng tới ứng dụng trong y tế, giáo dục và phân tích pháp lý
📌 Gemini 2.0 đánh dấu bước tiến trong phát triển AI tư duy, dẫn đầu Chat Mod Arena với khả năng suy luận có cấu trúc. Tuy nhiên vẫn cần khắc phục hạn chế về tính linh hoạt và phụ thuộc dữ liệu huấn luyện để ứng dụng hiệu quả trong thực tế.
https://www.geeky-gadgets.com/ai-problem-solving-and-decision-making/
Gemini 2.0 và OpenAI o1: Tương lai của AI trong giải quyết vấn đề
12:48 trưa ngày 20 tháng 12 năm 2024 - Julian Horsey
Gemini 2.0: Đột phá mới của Google trong AI
Mô hình Gemini 2.0 Flash Thinking Experimental của Google đánh dấu một cột mốc quan trọng trong sự phát triển của trí tuệ nhân tạo (AI). Được thiết kế để vượt trội trong suy luận và giải quyết vấn đề, mô hình này tập trung vào tư duy có cấu trúc và minh bạch trong quá trình ra quyết định. Dù sở hữu những khả năng ấn tượng trong các bối cảnh cụ thể, mô hình cũng gặp không ít thách thức, đặc biệt là trong việc thích nghi với các đầu vào tinh vi và tránh phụ thuộc quá mức vào dữ liệu huấn luyện.
Hãy tưởng tượng bạn đang cố giải một câu đố phức tạp hoặc một tình huống tiến thoái lưỡng nan về đạo đức. Khi bạn nghĩ mình đã tìm ra lời giải, các quy tắc bất ngờ thay đổi một chút, và giải pháp cẩn thận của bạn không còn hiệu quả. Điều đó thật khó chịu, phải không? Đây chính xác là những thách thức mà Gemini 2.0 hướng tới—chia nhỏ vấn đề theo từng bước, suy luận để đi đến các kết luận logic. Tuy nhiên, ngay cả những AI tiên tiến nhất cũng có thể "vấp ngã" khi vấn đề thay đổi, chứng minh rằng suy luận thực sự phức tạp đến mức nào.
Gemini 2.0 là một mô hình AI hiện đại được thiết kế để ưu tiên suy luận thay vì chỉ nhận diện mẫu. Không giống như các mô hình truyền thống, Gemini 2.0 tích hợp khả năng đa phương tiện, cho phép xử lý và phân tích nhiều loại dữ liệu như văn bản, hình ảnh và hơn thế nữa. Điểm nổi bật của Gemini 2.0 là nhấn mạnh vào tính nhất quán logic và minh bạch, cung cấp cái nhìn sâu sắc về quy trình ra quyết định từng bước. Điều này không chỉ nâng cao khả năng giải quyết vấn đề mà còn xây dựng niềm tin vào đầu ra của mô hình.
Gemini 2.0 thể hiện nhiều điểm mạnh khiến nó vượt trội so với các mô hình AI trước đây:
Những thế mạnh này nhấn mạnh tiềm năng của Gemini 2.0 trong việc xử lý các nhiệm vụ suy luận phức tạp, đặc biệt khi các vấn đề phù hợp với dữ liệu huấn luyện của nó. Khả năng cung cấp các giải pháp minh bạch và logic khiến mô hình trở thành công cụ có giá trị trong các lĩnh vực đòi hỏi sự phân tích nghiêm ngặt.
Dù có những khả năng ấn tượng, Gemini 2.0 vẫn đối mặt với một số hạn chế làm giảm khả năng thích nghi và hiệu suất trong các bối cảnh cụ thể:
Những hạn chế này cho thấy sự phụ thuộc vào kiến thức đã có và thiếu tính linh hoạt khi đối mặt với các kịch bản mới hoặc được thay đổi. Việc khắc phục những vấn đề này là điều cần thiết để nâng cao khả năng thích nghi và suy luận hiệu quả của mô hình trong các ứng dụng thực tế.
Hiệu suất của Gemini 2.0 thay đổi đáng kể tùy thuộc vào bản chất của nhiệm vụ. Các ví dụ cụ thể giúp làm rõ điểm mạnh và điểm yếu của mô hình:
Những ví dụ này minh họa khả năng vượt trội trong các kịch bản có cấu trúc quen thuộc, đồng thời làm nổi bật những khó khăn trong các nhiệm vụ đòi hỏi sự linh hoạt, sáng tạo hoặc suy luận tinh tế.
Những thách thức mà Gemini 2.0 gặp phải phản ánh các vấn đề rộng hơn trong phát triển AI định hướng suy luận. Việc phụ thuộc vào dữ liệu huấn luyện và khó thích nghi với các đầu vào được điều chỉnh nhấn mạnh nhu cầu về các cơ chế mạnh mẽ hơn để xử lý sự phức tạp của thế giới thực. Nâng cao khả năng suy luận chính xác và linh hoạt sẽ là điều cần thiết để thúc đẩy các ứng dụng thực tiễn của AI.
Mặt khác, tính minh bạch trong suy luận của Gemini 2.0 là một bước tiến đáng kể. Việc cung cấp thông tin rõ ràng về quy trình ra quyết định của mô hình đặt nền tảng để xây dựng niềm tin vào các hệ thống AI. Tính minh bạch này đặc biệt có giá trị trong các ứng dụng yêu cầu hiểu rõ lý do đằng sau quyết định, chẳng hạn như chăm sóc sức khỏe, giáo dục và phân tích pháp lý.
Các phiên bản tương lai của những mô hình như Gemini 2.0 có thể hưởng lợi từ việc tích hợp các cơ chế tiên tiến hơn để xử lý các kịch bản mới và tình huống tiến thoái lưỡng nan về đạo đức. Bằng cách giải quyết những hạn chế hiện tại, những mô hình này có thể mở đường cho các hệ thống AI đáng tin cậy và hiệu quả hơn, có khả năng xử lý các vấn đề phức tạp và tinh tế với độ chính xác và khả năng thích nghi cao hơn.
• AI tự trị là hệ thống có khả năng thực hiện các tác vụ mà không cần sự can thiệp của con người, khác với AI tạo sinh tập trung vào việc tạo ra nội dung dựa trên dữ liệu hiện có.
• Theo khảo sát mới nhất của McKinsey, 65% tổ chức đã áp dụng AI đang sử dụng AI tạo sinh.
• Hầu hết các ngành đều có khả năng đầu tư 5% ngân sách số vào cả AI tạo sinh và AI phân tích, nhưng chưa có kế hoạch đầu tư vào AI tự trị.
• Để khai thác lợi ích của AI tự trị, các tổ chức cần triển khai các biện pháp bảo vệ nghiêm ngặt như mô hình thông tin khép kín và quyền hạn được xác định rõ ràng.
• Trong lĩnh vực IT, AI tự trị có thể tối ưu hóa hoạt động bằng cách tự động hóa các tác vụ quan trọng, giảm chi phí và sai sót.
• Khảo sát trên 7.000 người dùng Atera cho thấy, đến năm 2025, các chuyên gia IT dự kiến sẽ sử dụng AI cho chẩn đoán và giải quyết vấn đề tự động (31,5%), chức năng hỗ trợ/helpdesk (19%) và vá lỗi tự động (26,9%).
• Để triển khai AI tự trị an toàn trong IT, cần ưu tiên các yếu tố sau:
- Khả năng can thiệp của con người: AI tự trị phải được lập trình để đánh dấu khi cần sự can thiệp của con người.
- Quyền hạn: Áp dụng khung truy cập AI zero-trust, hạn chế quyền truy cập vào các tệp được chỉ định.
- Cảnh báo và giám sát: Thiết lập hệ thống giám sát và cảnh báo mạnh mẽ để đảm bảo AI hoạt động an toàn và hiệu quả.
• Dữ liệu chất lượng cao và đáng tin cậy là yếu tố quan trọng để vận hành hệ thống AI tự trị.
• Mô hình thông tin khép kín đảm bảo dữ liệu đầu vào không bị sử dụng cho đầu ra bên ngoài tổ chức, bảo vệ thông tin nhạy cảm.
• Thách thức khi triển khai AI tự trị bao gồm:
- Lo ngại về việc mất kiểm soát
- Độ phức tạp trong tích hợp
- Kết quả không nhất quán
- Thách thức về quy định
• Để triển khai thành công AI tự trị, doanh nghiệp cần:
- Xác định rõ mục tiêu kinh doanh
- Thiết lập hệ sinh thái dữ liệu phù hợp
- Tạo các thông số được xác định rõ ràng
- Điều chỉnh quy trình làm việc để đảm bảo việc sử dụng hiệu quả
• Các câu hỏi quan trọng khi tích hợp AI tự trị:
- Dữ liệu được quản lý như thế nào?
- Làm thế nào để giám sát hệ thống?
- Làm thế nào để đo lường hiệu quả?
• Cần thiết lập khung quản trị dữ liệu mạnh mẽ, hướng dẫn rõ ràng về quyền riêng tư và tính minh bạch, cũng như kiểm soát kỹ thuật để ngăn chặn AI đưa ra quyết định thiếu thận trọng.
• Giám sát và đánh giá thường xuyên hệ thống AI tự trị là cần thiết để hiểu hiệu suất và xác định các lĩnh vực cần cải thiện.
• Thiết lập cảnh báo thời gian thực để phát hiện sớm các vấn đề tiềm ẩn.
• Xác định rõ mục tiêu đánh giá và tiến hành đánh giá trách nhiệm giải trình thường xuyên để đảm bảo AI tự trị đáp ứng nhu cầu của tổ chức.
📌 AI tự trị đang mở ra cơ hội to lớn để tái định nghĩa hiệu quả và quy mô trong tổ chức. Tuy nhiên, việc triển khai đòi hỏi cách tiếp cận thận trọng và đầy tham vọng. Doanh nghiệp cần cân nhắc kỹ lưỡng về quản lý dữ liệu, giám sát hệ thống và đo lường hiệu quả để tận dụng tối đa tiềm năng của công nghệ này.
https://thenewstack.io/generative-ai-is-just-the-beginning-heres-why-autonomous-ai-is-next/
AI tự trị sẽ cách mạng hóa hoạt động CNTT nhờ khả năng ra quyết định độc lập và tự động hóa.
Ngày 16/12/2024, lúc 13:00 bởi Gil Pekelman
CNTT đang ở ngã rẽ. Một mặt, áp lực phải cung cấp giải pháp tức thì ngày càng lớn. Mặt khác, đội ngũ CNTT lại bị đè nặng bởi những công việc lặp đi lặp lại, hạn chế khả năng làm việc chủ động.
Cho đến nay, việc sử dụng AI trong doanh nghiệp chỉ xoay quanh những gì AI có thể tạo ra. Bước nhảy vọt tiếp theo sẽ tập trung vào những gì AI có thể làm một cách tự trị, độc lập và không cần sự can thiệp của con người.
Câu này có thể khiến nhiều người liên tưởng đến một câu chuyện kinh dị khoa học viễn tưởng về cuộc chiến giữa con người và máy móc. Thuật ngữ “AI tự trị” gợi lên nỗi lo chính đáng về mức độ tự do mà AI sẽ được cho phép. Nhưng hãy tưởng tượng thế này: Bạn là quản trị viên CNTT triển khai các bản cập nhật phần mềm trên tất cả máy tính trong tổ chức. Với AI tự trị, một tác nhân AI có thể tự động cài đặt các bản cập nhật dựa trên tiêu chí đã định sẵn, thay vì phải thực hiện thủ công từng cái một.
Ý tôi là: nỗi sợ chính đáng về vai trò của AI tự trị không nên ngăn chúng ta mơ về “điều gì sẽ xảy ra”. Thay vào đó, cần tiếp cận những "điều gì sẽ xảy ra" một cách thận trọng.
Hãy tưởng tượng chúng ta đang ở trong một phòng xử án: Tôi là luật sư, bạn là bồi thẩm đoàn. Chúng ta sẽ cùng nhau làm rõ trường hợp cho AI tự trị.
Tôi ở đây để chứng minh rằng doanh nghiệp không cần lo sợ AI tự trị nếu biết phát triển và triển khai công nghệ này một cách cẩn trọng, thông minh. Việc đón nhận công nghệ này sẽ mở ra cơ hội to lớn để cải thiện hiệu năng và độ chính xác trong tổ chức. Nhưng trước khi đi sâu, chúng ta cần bắt đầu với một số định nghĩa.
AI tự trị là hệ thống có thể thực hiện các nhiệm vụ mà không cần sự can thiệp của con người. Trong khi đó, AI tạo sinh tập trung vào việc tạo nội dung dựa trên dữ liệu sẵn có. Điểm khác biệt của AI tự trị là khả năng tự quản lý. Hiểu rõ sự khác biệt này rất quan trọng, giúp các tổ chức sử dụng AI cho các hoạt động phức tạp hơn như bảo trì dự đoán và tối ưu hóa tài nguyên.
Trọng tâm | Ví dụ trường hợp sử dụng |
---|---|
AI tạo sinh | Tạo nội dung mới dựa trên mẫu trong dữ liệu |
AI phân tích | Phân tích dữ liệu để tìm mẫu và dự đoán |
AI nhân quả | Hiểu mối quan hệ nhân quả |
AI tự trị | Hành động độc lập để đưa ra và thực thi quyết định theo thời gian thực |
Nguồn: Data Science Central, 14/07/2025 | Sự phối hợp giữa AI tạo sinh, phân tích, nhân quả, và tự trị
Theo khảo sát toàn cầu mới nhất của McKinsey về trạng thái của AI, 65% các tổ chức áp dụng AI hiện nay đang sử dụng AI tạo sinh. Trong hầu hết các ngành, các tổ chức đầu tư khoảng 5% ngân sách kỹ thuật số vào AI tạo sinh và AI phân tích, nhưng không báo cáo kế hoạch đầu tư vào AI tự trị dù công nghệ này đang ngày càng cải thiện khả năng thực hiện các nhiệm vụ phức tạp với độ chính xác và hiệu quả cao.
Để tận dụng tối đa AI tự trị, các tổ chức cần áp dụng những giới hạn nghiêm ngặt — chẳng hạn như các mô hình thông tin khép kín và các quyền hạn được xác định rõ ràng — để đảm bảo triển khai hệ thống mạnh mẽ này một cách có trách nhiệm và hiệu quả.
Các phòng CNTT là động cơ ẩn giấu của tổ chức hiện đại. Họ đảm bảo thiết bị, mạng lưới và phần mềm hoạt động trơn tru, đồng thời giữ an toàn dữ liệu và hỗ trợ nhân viên.
Trong 9 năm làm việc để mở rộng AI tự trị trong ngành CNTT, đây là điều tôi nhận thấy:
Mối quan tâm thị trường về AI tự trị trong CNTT đang gia tăng. Chúng tôi khảo sát hơn 7.000 người dùng Atera để hiểu rõ hơn vai trò của AI trong quản lý CNTT. Năm 2023, các chuyên gia CNTT cho biết sử dụng AI cho phân tích dữ liệu và báo cáo (18%), và tối ưu hóa hỗ trợ/vé (30%). Đến năm 2025, nghiên cứu của chúng tôi cho thấy các kỹ thuật viên kỳ vọng AI sẽ chẩn đoán và xử lý sự cố tự động (31,5%), các chức năng hỗ trợ/vé (19%), và vá lỗi tự động (26,9%).
Để AI tự trị hoạt động hiệu quả trong CNTT, cần ưu tiên an toàn, chất lượng dữ liệu và tính năng.
AI tự trị có tiềm năng định hình lại hiệu năng và quy mô tổ chức, nhưng cần tiếp cận công nghệ này một cách thận trọng và tham vọng. Hãy chuẩn bị kỹ lưỡng để không chỉ đón nhận cơ hội, mà còn vượt qua thách thức.
- Microsoft phát triển Copilot Vision với điểm khác biệt chính là khả năng trở thành người bạn đồng hành thông minh về cảm xúc, tích hợp trực tiếp vào trình duyệt Edge
- Theo CEO Mustafa Suleyman, Copilot Vision có khả năng:
+ Tương tác tự nhiên với giọng nói mượt mà, nhanh nhạy
+ Thể hiện cảm xúc phù hợp với tâm trạng người dùng
+ Phản biện và không luôn đồng ý với người dùng như một người bạn thật sự
- Về tính năng riêng tư và bảo mật:
+ Người dùng có quyền lựa chọn kích hoạt Vision
+ Dữ liệu người dùng được xóa sau mỗi phiên sử dụng
+ Chỉ lưu trữ phản hồi của Copilot để cải thiện hệ thống an toàn
- Khác biệt với OpenAI:
+ Microsoft tích hợp trực tiếp vào trình duyệt Edge
+ Tập trung vào tính năng đồng hành và tương tác cá nhân hóa
+ OpenAI vẫn hoạt động độc lập dù nhận đầu tư hàng tỷ USD từ Microsoft
- Tình trạng triển khai:
+ Hiện chỉ cung cấp cho một số thuê bao Copilot Pro tại Mỹ
+ Hoạt động trên một số website được chọn lọc
+ Dự kiến mở rộng phạm vi người dùng và website trong tương lai
📌 Microsoft đang định hình lại vai trò của AI qua Copilot Vision - trợ lý thông minh có khả năng đồng hành, thấu hiểu cảm xúc và tương tác như một người bạn thật sự thông qua trình duyệt Edge, với cam kết bảo mật dữ liệu người dùng tuyệt đối.
https://readwrite.com/how-microsoft-ai-different-openai/
- Gói ChatGPT Pro có giá 200 USD/tháng, cung cấp quyền truy cập không giới hạn vào các mô hình suy luận nâng cao như "Chain of Thought" và chế độ o1 Pro.
- So với gói Plus (20 USD/tháng), Pro có những điểm khác biệt:
• Plus giới hạn 80 tin nhắn GPT-4o mỗi 3 giờ
• Plus giới hạn 50 tin nhắn o1 mỗi tuần
• Pro không có giới hạn sử dụng.
- Các tính năng nâng cao của gói Pro:
• Khả năng lập trình và phát triển phần mềm tốt hơn
• Giải toán nâng cao cấp độ thi đấu
• Hỗ trợ chẩn đoán y tế và nghiên cứu
• Chế độ o1 Pro cải thiện hiệu suất so với o1 tiêu chuẩn.
- Đối tượng phù hợp với gói Pro:
• Nhà nghiên cứu khoa học cần phân tích dữ liệu lớn
• Chuyên gia y tế cần hỗ trợ chẩn đoán chính xác
• Nhà phát triển AI tạo các agent không cần code.
- Thách thức về đạo đức:
• Vấn đề về tính minh bạch
• Cần cơ chế giám sát chặt chẽ hơn
• Lo ngại về độ tin cậy trong quyết định chuyên môn.
📌 Gói ChatGPT Pro 200 USD/tháng phù hợp với chuyên gia và nhà nghiên cứu có nhu cầu tính toán cao. Với người dùng thông thường, gói Plus 20 USD/tháng đã đủ tính năng cần thiết. Cải thiện hiệu suất của Pro so với Plus là tăng dần và chưa thực sự xứng đáng với mức giá cao.
https://www.geeky-gadgets.com/openai-chatgpt-pro-subscription/
- Các nhà nghiên cứu Trung Quốc vừa công bố mô hình LLaVA-o1, một mô hình nguồn mở cạnh tranh với OpenAI o1, tập trung vào việc cải thiện khả năng suy luận của mô hình ngôn ngữ thị giác (VLM).
- Mô hình này giải quyết các hạn chế của VLM truyền thống bằng cách:
+ Thực hiện suy luận có cấu trúc qua 4 giai đoạn: tóm tắt, chú thích, suy luận và kết luận
+ Chỉ hiển thị giai đoạn kết luận cho người dùng
+ Áp dụng kỹ thuật tìm kiếm theo cấp độ để tạo và chọn lọc kết quả tối ưu ở mỗi giai đoạn
- Quá trình đào tạo bao gồm:
+ Sử dụng bộ dữ liệu 100.000 cặp hình ảnh-câu hỏi-câu trả lời
+ GPT-4o tạo quy trình suy luận chi tiết 4 giai đoạn
+ Fine-tune trên nền tảng Llama-3.2-11B-Vision-Instruct
- Kết quả đánh giá:
+ Cải thiện 6,9% điểm benchmark so với mô hình Llama cơ bản
+ Vượt trội hơn các mô hình nguồn mở khác có cùng kích thước hoặc lớn hơn
+ Hiệu suất cao hơn một số mô hình đóng như GPT-4-o-mini và Gemini 1.5 Pro
- Đóng góp quan trọng:
+ Thiết lập tiêu chuẩn mới cho suy luận đa phương thức trong VLM
+ Mở đường cho nghiên cứu về suy luận có cấu trúc
+ Tiềm năng mở rộng với bộ xác minh bên ngoài và học tăng cường
📌 LLaVA-o1 đạt bước tiến vượt bậc với khả năng suy luận 4 giai đoạn và cải thiện 6,9% hiệu suất so với Llama cơ bản. Mô hình nguồn mở này thậm chí vượt qua các đối thủ lớn như GPT-4-o-mini và Gemini 1.5 Pro, mở ra hướng phát triển mới cho công nghệ VLM.
https://venturebeat.com/ai/chinese-researchers-unveil-llava-o1-to-challenge-openais-o1-model/
• Deepseek, công ty Trung Quốc, vừa ra mắt mô hình Deepseek R1 với tham vọng cạnh tranh với OpenAI o1 Preview
• Hai điểm mạnh chính của Deepseek R1:
- Là mô hình nguồn mở, cho phép cộng đồng đóng góp phát triển
- Khả năng suy luận chi tiết và giải thích quá trình tư duy rõ ràng
• OpenAI o1 Preview thể hiện ưu thế vượt trội trong:
- Xử lý ngữ pháp chính xác
- Khả năng lập trình tốt hơn khi tạo game Pac-Man
- Giải toán chính xác sau quá trình tính toán phức tạp
• Cả hai mô hình đều gặp khó khăn với:
- Suy luận không gian
- Hoàn thành toàn bộ mã nguồn game Pac-Man
• So sánh hiệu năng qua 5 lĩnh vực chính:
- Suy luận
- Ngữ pháp
- Lập trình
- Toán học
- Suy luận không gian
• Tiềm năng phát triển trong tương lai:
- Nghiên cứu khoa học và phân tích dữ liệu
- Giải quyết vấn đề kỹ thuật phức tạp
- Hỗ trợ ra quyết định trong kinh doanh
- Cải thiện xử lý ngôn ngữ tự nhiên
📌 OpenAI o1 Preview thể hiện ưu thế tổng thể về hiệu năng, đặc biệt trong ngữ pháp, lập trình và toán học. Tuy nhiên Deepseek R1 với đặc tính nguồn mở và khả năng suy luận chi tiết đang là đối thủ đáng gờm từ Trung Quốc trong cuộc đua AI.
https://www.geeky-gadgets.com/deepseek-r1-vs-openai-o1/
• Anthropic vừa công bố Claude 3.5 Sonnet hỗ trợ phân tích dữ liệu, tương tự như Advanced Data Analysis của ChatGPT
• Claude cung cấp tính năng phân tích dữ liệu miễn phí cho tất cả người dùng, trong khi ChatGPT yêu cầu gói Plus hoặc Enterprise với phí 20 USD/tháng trở lên
• Claude sử dụng JavaScript để viết và chạy mã phân tích, trong khi ChatGPT dùng Python. JavaScript có ưu thế về trực quan hóa dữ liệu web nhưng kém hơn Python về machine learning và AI
• Giới hạn nghiêm trọng của Claude:
- Chỉ cho phép tải lên 5 file cùng lúc
- Giới hạn 30MB dung lượng file
- Chỉ xử lý được khoảng 2.000 dòng (25 ký tự/dòng) với bản miễn phí
- Bản Pro (20 USD/tháng) chỉ tăng giới hạn lên 5 lần, tương đương 10.000 dòng
• So sánh với ChatGPT Plus:
- Xử lý được 69.215 bản ghi (50 ký tự/dòng)
- Phân tích được 170.000+ dòng mã G-code
- Không gặp giới hạn với các tập dữ liệu lớn
• Thử nghiệm thực tế với Claude:
- Chỉ có thể phân tích bộ dữ liệu nhỏ 85 bản ghi
- Biểu đồ tròn bị cắt nhãn dữ liệu
- Khả năng phân tích cơ bản về phân phối và xu hướng
📌 Claude không đáp ứng được kỳ vọng về phân tích dữ liệu khi so với ChatGPT Plus. Với giới hạn chỉ 2.000 dòng (bản free) và 10.000 dòng (bản Pro), công cụ này chỉ phù hợp cho demo công nghệ, không thực sự hữu ích cho phân tích dữ liệu chuyên nghiệp.
https://www.zdnet.com/article/how-claudes-new-ai-data-analysis-tool-compares-to-chatgpts-version-hint-it-doesnt/
• Perplexity Spaces cho phép tải lên 50 file, hỗ trợ nhiều mô hình AI như GPT-4 và Claude, tích hợp tìm kiếm web và file một cách liền mạch
• Custom GPTs giới hạn ở 20 file nhưng nổi bật với khả năng tùy chỉnh actions và tích hợp API mạnh mẽ, phù hợp cho cả người dùng miễn phí và trả phí
• Về khả năng nghiên cứu:
- Perplexity Spaces vượt trội nhờ công cụ tìm kiếm nâng cao và dung lượng file lớn
- Custom GPTs hạn chế trong tìm kiếm web, chỉ sử dụng Bing
• Ứng dụng tối ưu của Perplexity Spaces:
- Nghiên cứu học thuật cần phân tích dữ liệu lớn
- Chuẩn bị hồ sơ dự thầu (RFP)
- Nghiên cứu thị trường và phân tích cạnh tranh
• Ứng dụng tối ưu của Custom GPTs:
- Tự động hóa quy trình kinh doanh lặp lại
- Phát triển giải pháp hỗ trợ khách hàng tùy chỉnh
- Tạo công cụ chuyên biệt cho từng ngành
• Hạn chế cần lưu ý:
- Perplexity Spaces giới hạn ký tự cho hướng dẫn tùy chỉnh
- Custom GPTs đòi hỏi kiến thức lập trình để tận dụng tối đa
- Cả hai nền tảng có cấu trúc giá khác nhau cần cân nhắc
📌 Perplexity Spaces thống trị mảng nghiên cứu với khả năng xử lý 50 file và tìm kiếm nâng cao. Custom GPTs dẫn đầu về tự động hóa với tích hợp API mạnh mẽ và tùy biến linh hoạt. Việc kết hợp cả hai nền tảng qua API sẽ tối ưu hiệu quả sử dụng.
https://www.geeky-gadgets.com/perplexity-spaces-vs-custom-gpt/
- CEO Marc Benioff của Salesforce đã công khai chỉ trích Microsoft Copilot, cho rằng sản phẩm này không đáp ứng kỳ vọng và ví von nó như "Microsoft Clippy 2.0". Ông cho rằng Microsoft thiếu dữ liệu và mô hình bảo mật cần thiết để tạo ra trí tuệ doanh nghiệp thực sự.
- Benioff nhấn mạnh rằng Agentforce của Salesforce đang tạo ra sự khác biệt bằng cách tích hợp dữ liệu, LLMs, quy trình làm việc, và bảo mật trong nền tảng Customer 360. Theo ông, AI của Salesforce có thể xử lý hàng nghìn tỷ giao dịch AI mỗi tuần.
- Microsoft gần đây đã công bố mở rộng Copilot Studio, cho phép tạo ra các agent tự động trong các lĩnh vực IT, marketing, tài chính và dịch vụ khách hàng, cạnh tranh trực tiếp với Agentforce của Salesforce.
- Benioff khẳng định việc Microsoft đổi tên Copilot thành "agents" thể hiện "chế độ hoảng loạn". Ông chỉ trích Copilot vì khả năng bảo mật kém, dễ gây rò rỉ dữ liệu và buộc khách hàng phải xây dựng các LLMs của riêng họ.
- Nhiều người dùng trên mạng xã hội cũng bày tỏ sự thất vọng với giao diện mới của Copilot, cho rằng bản cập nhật này gây khó khăn trong trải nghiệm và khiến họ quay lại sử dụng ChatGPT.
- OpenAI gần đây ưu tiên đưa ChatGPT lên nền tảng macOS thay vì Windows, dù Microsoft là nhà đầu tư lớn của họ, làm dấy lên nghi ngờ về vị thế của Microsoft trong cuộc đua AI.
📌 Salesforce và Microsoft đang cạnh tranh quyết liệt trong lĩnh vực AI, với Benioff tuyên bố Copilot không đủ năng lực để đối đầu với Agentforce. Microsoft đối mặt với những chỉ trích về chất lượng Copilot, trong khi ChatGPT tiếp tục chiếm ưu thế trên nhiều nền tảng di động và máy tính.
https://www.windowscentral.com/software-apps/salesforce-ceo-claims-microsoft-is-in-panic-mode-copilot-is-a-flop
• Nvidia vừa công bố dòng mô hình ngôn ngữ đa phương thức lớn NVLM 1.0, dẫn đầu là NVLM-D-72B với 72 tỷ tham số.
• NVLM-D-72B thể hiện hiệu suất vượt trội trong các tác vụ thị giác và ngôn ngữ, cạnh tranh với các mô hình độc quyền hàng đầu như GPT-4.
• Mô hình này có khả năng xử lý đầu vào phức tạp bao gồm hình ảnh và văn bản, từ phân tích meme đến giải quyết các bài toán toán học.
• Đặc biệt, NVLM-D-72B cải thiện hiệu suất trên các tác vụ chỉ có văn bản sau khi được huấn luyện đa phương thức, tăng độ chính xác trung bình 4,3 điểm trên các tiêu chuẩn văn bản chính.
• Nvidia quyết định công khai trọng số mô hình và hứa hẹn sẽ phát hành mã huấn luyện, phá vỡ xu hướng giữ kín các hệ thống AI tiên tiến.
• Động thái này mang lại cho các nhà nghiên cứu và nhà phát triển quyền truy cập chưa từng có vào công nghệ AI tiên tiến.
• Cộng đồng AI đã phản ứng tích cực với việc phát hành này, với một nhà nghiên cứu AI nhận xét về khả năng của mô hình trong các đánh giá toán học và lập trình.
• Dự án NVLM cũng giới thiệu các thiết kế kiến trúc sáng tạo, bao gồm cách tiếp cận kết hợp các kỹ thuật xử lý đa phương thức khác nhau.
• Việc phát hành NVLM 1.0 có thể thúc đẩy nghiên cứu và phát triển AI trên toàn lĩnh vực, cho phép các tổ chức nhỏ hơn và các nhà nghiên cứu độc lập đóng góp đáng kể hơn vào sự tiến bộ của AI.
• Tuy nhiên, việc phát hành này cũng đặt ra những lo ngại về lạm dụng và các vấn đề đạo đức khi AI mạnh mẽ trở nên dễ tiếp cận hơn.
• Quyết định của Nvidia cũng đặt ra câu hỏi về tương lai của các mô hình kinh doanh AI, khi các mô hình tiên tiến trở nên miễn phí và có sẵn rộng rãi.
• Tác động thực sự của NVLM 1.0 sẽ được thể hiện trong những tháng và năm tới, có thể mở ra kỷ nguyên hợp tác và đổi mới chưa từng có trong AI.
📌 Nvidia đã tạo ra bước ngoặt trong ngành AI với việc phát hành mô hình nguồn mở NVLM 1.0 72 tỷ tham số. Mô hình này cạnh tranh với GPT-4 trong các tác vụ đa phương thức, mở ra cơ hội mới cho nghiên cứu AI và thách thức cấu trúc hiện tại của ngành công nghiệp AI.
https://venturebeat.com/ai/nvidia-just-dropped-a-bombshell-its-new-ai-model-is-open-massive-and-ready-to-rival-gpt-4/
• Mô hình ngôn ngữ nhỏ (SLM) đang trở thành tâm điểm trong lĩnh vực xử lý ngôn ngữ tự nhiên, hướng tới việc đưa trí tuệ nhân tạo chất lượng cao lên các thiết bị hàng ngày.
• SLM thường có từ 100 triệu đến 5 tỷ tham số, nhỏ hơn nhiều so với mô hình ngôn ngữ lớn (LLM), nhưng vẫn có thể thực hiện các tác vụ ngôn ngữ phức tạp một cách hiệu quả.
• Nghiên cứu tập trung vào việc tối ưu hóa mô hình AI cho các thiết bị có tài nguyên tính toán hạn chế như điện thoại thông minh, máy tính bảng và thiết bị đeo.
• Các phương pháp như cắt tỉa mô hình, chưng cất kiến thức và lượng tử hóa được sử dụng để giảm độ phức tạp của mô hình lớn mà không ảnh hưởng đến hiệu suất.
• Nghiên cứu từ Đại học Bưu chính Viễn thông Bắc Kinh và các đối tác giới thiệu thiết kế kiến trúc mới cho SLM, tập trung vào mô hình transformer chỉ có bộ giải mã.
• Các cải tiến bao gồm cơ chế attention đa truy vấn và mạng nơ-ron feed-forward có cổng (FFN), giúp giảm bộ nhớ và tăng hiệu quả xử lý.
• Kiến trúc mới sử dụng attention nhóm truy vấn để giảm số lượng nhóm truy vấn mà vẫn duy trì sự đa dạng của attention.
• SiLU (Sigmoid Linear Unit) được sử dụng làm hàm kích hoạt, cho thấy cải thiện đáng kể trong xử lý các tác vụ ngôn ngữ.
• Kỹ thuật bù phi tuyến tính được áp dụng để giải quyết vấn đề sụp đổ đặc trưng thường gặp ở các mô hình nhỏ.
• Mô hình Phi-3 mini đạt độ chính xác cao hơn 14,5% trong các tác vụ lập luận toán học so với LLaMA 3.1 - một mô hình lớn với 7 tỷ tham số.
• Trong các tác vụ lập luận thông thường, họ mô hình Phi vượt trội so với nhiều mô hình hàng đầu, đạt độ chính xác 67,6%.
• Mô hình Phi-3 đạt độ chính xác 72,4% trong các tác vụ giải quyết vấn đề, đứng trong top các SLM hiệu suất cao.
• Các mô hình được thử nghiệm trên nhiều thiết bị biên như Jetson Orin NX và điện thoại thông minh cao cấp, cho thấy giảm đáng kể độ trễ suy luận và sử dụng bộ nhớ.
• Mô hình Qwen-2 1.5B giảm độ trễ suy luận hơn 50%, trở thành một trong những mô hình hiệu quả nhất được thử nghiệm.
• OpenELM-3B sử dụng ít hơn 30% bộ nhớ so với các mô hình khác có số lượng tham số tương tự.
📌 SLM đang mở ra tương lai cho AI hiệu quả và dễ tiếp cận trên các thiết bị hàng ngày. Với kiến trúc sáng tạo như attention nhóm truy vấn và FFN có cổng, các mô hình nhỏ như Phi-3 đã vượt trội hơn cả LLM trong nhiều tác vụ, đồng thời giảm đáng kể độ trễ và sử dụng bộ nhớ trên thiết bị cạnh.
https://www.marktechpost.com/2024/09/26/a-comprehensive-survey-of-small-language-models-architectures-datasets-and-training-algorithms/
• Salesforce AI Research giới thiệu SFR-Judge - bộ 3 mô hình đánh giá dựa trên LLM gồm 8 tỷ (8B), 12 tỷ (12B) và 70 tỷ (70B) tham số, được xây dựng từ Meta Llama 3 và Mistral NeMO.
• SFR-Judge được thiết kế để thực hiện nhiều tác vụ đánh giá như so sánh cặp, xếp hạng đơn lẻ và phân loại nhị phân, nhằm hỗ trợ các nhóm nghiên cứu đánh giá nhanh chóng và hiệu quả các LLM mới.
• Các mô hình được huấn luyện bằng phương pháp Direct Preference Optimization (DPO), cho phép học từ các ví dụ tích cực và tiêu cực để giảm thiểu thiên kiến và đảm bảo đánh giá nhất quán.
• SFR-Judge đạt hiệu suất vượt trội trên 10/13 điểm chuẩn, bao gồm độ chính xác 92,7% trên RewardBench - lần đầu tiên một mô hình đánh giá tạo sinh vượt ngưỡng 90%.
• Phương pháp huấn luyện sử dụng 3 định dạng dữ liệu: Phê bình chuỗi suy luận, Đánh giá tiêu chuẩn và Suy luận phản hồi, giúp tăng cường khả năng phân tích và đánh giá.
• Các thử nghiệm cho thấy SFR-Judge ít thiên kiến hơn đáng kể so với các mô hình cạnh tranh, thể hiện qua hiệu suất trên EvalBiasBench - một điểm chuẩn kiểm tra 6 loại thiên kiến.
• Mô hình thể hiện tính nhất quán cao trong đánh giá cặp đôi trên nhiều điểm chuẩn, cho thấy khả năng đánh giá ổn định ngay cả khi thứ tự phản hồi thay đổi.
• SFR-Judge có thể tạo ra các giải thích chi tiết cho các đánh giá, giúp giảm bớt tính chất "hộp đen" của các đánh giá dựa trên LLM.
• Mô hình có thể cải thiện đầu ra của các mô hình downstream, làm cho nó trở thành một công cụ hiệu quả cho các kịch bản học tăng cường từ phản hồi của con người (RLHF).
📌 SFR-Judge của Salesforce AI Research đánh dấu bước tiến quan trọng trong đánh giá tự động mô hình ngôn ngữ lớn. Với độ chính xác 92,7% trên RewardBench và hiệu suất vượt trội trên 10/13 điểm chuẩn, SFR-Judge thiết lập tiêu chuẩn mới cho đánh giá dựa trên LLM, mở ra cơ hội cải tiến trong đánh giá mô hình tự động.
https://www.marktechpost.com/2024/09/28/salesforce-ai-introduces-sfr-judge-a-family-of-three-judge-models-of-8-billion-parameters-8b-12b-and-70b-size-built-with-meta-llama-3-and-mistral-nemo/
• Một nghiên cứu gần đây đã phân tích toàn diện vai trò của các mô hình ngôn ngữ nhỏ (SLM) trong lĩnh vực AI hiện đại, tập trung vào khả năng, ứng dụng và lợi thế tiềm năng của chúng so với các mô hình lớn hơn.
• Nghiên cứu nhấn mạnh tầm quan trọng của SLM trong các lĩnh vực đòi hỏi hiệu quả và khả năng diễn giải, đồng thời thảo luận về sự phù hợp của chúng trong các tác vụ cụ thể mà các mô hình lớn có thể không thực tế.
• Khi các mô hình ngôn ngữ lớn (LLM) mở rộng quy mô, chi phí tính toán và nhu cầu năng lượng của chúng tăng theo cấp số nhân, khiến chúng ít tiếp cận hơn đối với các nhà nghiên cứu và doanh nghiệp có nguồn lực hạn chế.
• Trong khi đó, các mô hình nhỏ (SM) vẫn được sử dụng rộng rãi trong các ứng dụng thực tế nhưng thường bị đánh giá thấp. Nghiên cứu này khám phá mối quan hệ giữa LLM và SLM, xem xét cách chúng có thể hợp tác và cạnh tranh, nhằm cung cấp thông tin chi tiết để tối ưu hóa hiệu quả tính toán trong các hệ thống AI.
• Các kỹ thuật đào tạo sáng tạo đang được phát triển cho SLM, đặc biệt là việc sử dụng các mô hình lớn để tạo ra dữ liệu đào tạo đa dạng, cụ thể cho từng lĩnh vực.
• SLM cũng đang phát triển thành các hệ thống đa phương thức với khả năng lưu trữ và suy luận cục bộ.
• Các mô hình nguồn mở như Phi-3.5 cho thấy sức mạnh tiềm năng của các mô hình nhỏ hơn này. Ngoài ra, các tiến bộ như lượng tử hóa mô hình đang mở rộng phạm vi các tùy chọn lưu trữ, làm cho SLM dễ tiếp cận hơn cho nhiều ứng dụng khác nhau trong khi vẫn duy trì hiệu suất cao.
• SLM được đào tạo để thay đổi hành vi của mô hình thay vì trang bị cho chúng kiến thức cụ thể hoặc làm cho mô hình trở nên nặng về kiến thức.
• LLM và SLM có thể hợp tác để cân bằng hiệu suất và hiệu quả - LLM quản lý các tác vụ phức tạp trong khi SLM xử lý các tác vụ tập trung hơn, hiệu quả về tài nguyên.
• Tuy nhiên, SLM thường vượt trội hơn LLM trong môi trường hạn chế hoặc các tác vụ đòi hỏi khả năng diễn giải cao do tính đơn giản, chi phí thấp hơn và khả năng tiếp cận của chúng. Lựa chọn phụ thuộc vào nhu cầu cụ thể của tác vụ, với SLM xuất sắc trong các ứng dụng chuyên biệt.
• Sự hợp tác giữa LLM và các mô hình nhỏ hơn có thể cân bằng sức mạnh và hiệu quả, dẫn đến các hệ thống hiệu quả về tài nguyên, có khả năng mở rộng, dễ diễn giải và tiết kiệm chi phí, đồng thời vẫn duy trì hiệu suất cao và tính linh hoạt.
• Các mô hình nhỏ hơn mang lại những lợi thế độc đáo như tính đơn giản, chi phí thấp hơn và khả năng diễn giải tốt hơn, khiến chúng phù hợp với các thị trường ngách.
• LLM đã thể hiện hiệu suất xuất sắc trong nhiều tác vụ xử lý ngôn ngữ tự nhiên nhờ số lượng tham số lớn và được đào tạo trên các bộ dữ liệu đa dạng. Mặc dù các mô hình nhỏ hơn thường hoạt động ở mức thấp hơn, chúng vẫn có thể đạt được kết quả tương tự khi được cải thiện bằng các kỹ thuật như chưng cất kiến thức.
• LLM có tính linh hoạt cao, có thể xử lý nhiều loại tác vụ khác nhau chỉ với một vài ví dụ đào tạo. Ngược lại, các mô hình nhỏ hơn thường chuyên biệt hơn và các nghiên cứu cho thấy việc tinh chỉnh chúng trên các bộ dữ liệu dành riêng cho lĩnh vực đôi khi có thể dẫn đến hiệu suất tốt hơn so với LLM chung trên các tác vụ cụ thể.
• LLM đòi hỏi tài nguyên tính toán đáng kể cho cả đào tạo và suy luận, dẫn đến chi phí cao và độ trễ lớn, khiến chúng ít phù hợp hơn cho các ứng dụng thời gian thực, chẳng hạn như truy xuất thông tin, hoặc trong môi trường hạn chế tài nguyên như các thiết bị biên. Ngược lại, các mô hình nhỏ hơn yêu cầu ít dữ liệu đào tạo và sức mạnh tính toán hơn, cung cấp hiệu suất cạnh tranh trong khi giảm đáng kể yêu cầu tài nguyên.
• Các mô hình nhỏ hơn, đơn giản hơn thường minh bạch hơn và dễ diễn giải hơn so với các mô hình lớn hơn, phức tạp hơn. Trong các lĩnh vực như chăm sóc sức khỏe, tài chính và luật pháp, các mô hình nhỏ hơn thường được ưa chuộng vì quyết định của chúng cần được hiểu dễ dàng bởi những người không phải chuyên gia, chẳng hạn như bác sĩ hoặc nhà phân tích tài chính.
📌 Mô hình ngôn ngữ nhỏ (SLM) đóng vai trò quan trọng trong kỷ nguyên AI, cung cấp hiệu quả và khả năng diễn giải cao. Chúng có thể hợp tác với mô hình lớn (LLM) để tối ưu hóa hiệu suất, đồng thời vượt trội trong các môi trường hạn chế và ứng dụng chuyên biệt. SLM mang lại lợi thế về chi phí, tính đơn giản và khả năng tiếp cận, phù hợp cho nhiều lĩnh vực khác nhau.
https://cobusgreyling.substack.com/p/the-role-of-small-models-in-the-llm
• RAG (tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài) là kỹ thuật AI nâng cao hiệu suất của mô hình ngôn ngữ lớn bằng cách truy xuất thông tin từ nguồn bên ngoài trong quá trình tạo văn bản.
• Kiến trúc RAG gồm hai thành phần chính: bộ truy xuất tìm kiếm thông tin từ cơ sở kiến thức bên ngoài và bộ tạo sinh xử lý truy vấn cùng tài liệu được truy xuất để tạo ra phản hồi mạch lạc.
• RAG được ứng dụng rộng rãi trong hỗ trợ khách hàng, chăm sóc sức khỏe, nghiên cứu và chatbot, giúp cải thiện độ chính xác và bối cảnh của thông tin được tạo ra.
• AI Agents là các thực thể tự chủ thực hiện hành động thay cho người dùng, chuyên gia hoặc hệ thống khác dựa trên đầu vào hoặc mục tiêu nhận được.
• Có nhiều loại agent khác nhau như agent phản ứng, agent nhận thức và agent cộng tác, mỗi loại có kiến trúc và cách giao tiếp riêng.
• Agentic RAG là cách tiếp cận lai kết hợp điểm mạnh của RAG và AI Agents, tăng cường khả năng tạo sinh và ra quyết định.
• Trong Agentic RAG, các agent thông minh kiểm soát hoặc yêu cầu các tác vụ truy xuất cụ thể theo thời gian thực, cung cấp nhiều quyền kiểm soát hơn đối với quá trình truy xuất.
• Agentic RAG khác với RAG ở chỗ nó thêm lớp ra quyết định thông qua các agent tự chủ. Nó cũng mở rộng khả năng của agent truyền thống bằng cách cho phép chúng hướng dẫn quá trình truy xuất và tạo sinh.
• Ứng dụng của Agentic RAG bao gồm tạo nội dung động, hệ thống ra quyết định thời gian thực và hệ thống cộng tác đa agent.
• So với RAG và agent truyền thống, Agentic RAG có ưu điểm là kết hợp được điểm mạnh của cả hai, linh hoạt và có khả năng ra quyết định thời gian thực. Tuy nhiên, nó cũng phức tạp hơn trong thiết kế và đào tạo hệ thống.
📌 RAG, AI Agents và Agentic RAG là những tiến bộ quan trọng trong công nghệ AI. Agentic RAG nổi lên như một cách tiếp cận lai hứa hẹn, kết hợp khả năng truy xuất thông tin và ra quyết định tự chủ. Xu hướng tương lai sẽ tập trung vào các mô hình lai như Agentic RAG trong các lĩnh vực đòi hỏi ra quyết định và tạo nội dung thời gian thực.
https://www.marktechpost.com/2024/09/22/rag-ai-agents-and-agentic-rag-an-in-depth-review-and-comparative-analysis-of-intelligent-ai-systems/
• SambaNova Systems vừa ra mắt demo mới trên Hugging Face, sử dụng mô hình Llama 3.1 Instruct của Meta, nhằm cạnh tranh trực tiếp với mô hình o1 của OpenAI.
• Demo cho phép các nhà phát triển tương tác với mô hình Llama 3.1 405B, đạt tốc độ 129 token/giây, thể hiện khả năng xử lý AI tốc độ cao.
• SambaNova sử dụng chip AI SN40L độc quyền, được thiết kế đặc biệt cho việc tạo token tốc độ cao, quan trọng cho các ứng dụng doanh nghiệp đòi hỏi phản hồi nhanh.
• Trong các benchmark ban đầu, demo chạy trên cơ sở hạ tầng của SambaNova đạt 405 token/giây cho mô hình Llama 3.1 70B, đứng thứ 2 về tốc độ cung cấp mô hình Llama, chỉ sau Cerebras.
• Demo duy trì độ chính xác cao trong khi đạt tốc độ ấn tượng, sử dụng độ chính xác dấu phẩy động 16-bit, phù hợp cho các ngành như y tế và tài chính.
• Việc sử dụng mô hình nguồn mở Llama 3.1 của Meta đánh dấu sự thay đổi đáng kể trong lĩnh vực AI, mang lại tính minh bạch và linh hoạt cho các nhà phát triển.
• Kiến trúc dataflow có thể tái cấu hình của SambaNova tối ưu hóa phân bổ tài nguyên qua các lớp mạng neural, cho phép cải thiện hiệu suất liên tục thông qua cập nhật phần mềm.
• Khả năng chuyển đổi giữa các mô hình, tự động hóa quy trình làm việc và tinh chỉnh đầu ra AI với độ trễ tối thiểu là một bước đột phá cho doanh nghiệp.
• SambaNova đang định vị mình như một giải pháp thay thế hàng đầu trong thị trường cơ sở hạ tầng AI đang phát triển mạnh mẽ.
• Sự ra mắt này cho thấy cuộc chiến giành vị thế thống trị cơ sở hạ tầng AI vẫn chưa kết thúc, và SambaNova đã khẳng định vị thế cạnh tranh của mình.
📌 SambaNova thách thức OpenAI với demo Llama 3.1 đạt 405 token/giây trên HuggingFace. Sử dụng chip SN40L, demo cân bằng tốc độ và độ chính xác, mở ra cơ hội mới cho AI doanh nghiệp nguồn mở, cạnh tranh trực tiếp với các ông lớn trong ngành.
https://venturebeat.com/ai/sambanova-challenges-openais-o1-model-with-llama-3-1-powered-demo-on-huggingface/
- ChatGPT-o1 và Claude 3.5 được so sánh về hiệu suất trong các nhiệm vụ lập trình như phát triển trò chơi không gian và mô phỏng giao dịch Bitcoin trên nền tảng Cursor AI.
- Mô hình OpenAI 01 tập trung vào khả năng lý luận phức tạp thông qua việc sử dụng học tăng cường và các token lý luận.
- OpenAI o1 có những hạn chế như nhiệt độ cố định và thiếu thông điệp hệ thống, ảnh hưởng đến khả năng thích ứng.
- Trong các thử nghiệm, Claude 3.5 đã vượt trội hơn OpenAI o1 về tốc độ và độ tin cậy trong cả hai nhiệm vụ lập trình.
- OpenAI o1 cho thấy hiệu suất chậm hơn và ít đáng tin cậy hơn trong các nhiệm vụ lập trình được thử nghiệm.
- Cần có thêm nghiên cứu để xác định các ứng dụng tối ưu cho khả năng lý luận nâng cao của OpenAI o1.
- Các cải tiến trong tương lai và việc mở rộng quyền truy cập API có thể nâng cao tính khả dụng và hiệu suất của OpenAI o1.
- Trong thử nghiệm phát triển trò chơi không gian, Claude 3.5 đã tạo ra một trò chơi hoạt động với chỉ một số vấn đề nhỏ, trong khi OpenAI o1 gặp nhiều thách thức về hiệu suất.
- Trong nhiệm vụ mô phỏng giao dịch Bitcoin, Claude 3.5 cung cấp một giải pháp hoàn chỉnh với hướng dẫn rõ ràng và thiết lập Docker, trong khi OpenAI o1 gặp khó khăn với thời gian phản hồi chậm và chức năng chưa đầy đủ.
- Kết quả từ các thử nghiệm cung cấp cái nhìn sâu sắc về hiệu suất tương đối của OpenAI ChatGPT-o1 và Claude 3.5, với Claude 3.5 luôn vượt trội hơn.
- Mặc dù Claude 3.5 thể hiện hiệu suất tốt hơn trong các trường hợp thử nghiệm, nhưng tiềm năng của OpenAI ChatGPT-o1 vẫn cần được khám phá thêm.
📌 Claude 3.5 vượt trội hơn ChatGPT-o1 trong các nhiệm vụ lập trình như phát triển trò chơi không gian và mô phỏng giao dịch Bitcoin, với hiệu suất nhanh và đáng tin cậy hơn. OpenAI 01 cần cải thiện khả năng thích ứng và hiệu suất để phát huy hết tiềm năng lý luận nâng cao của mình.
https://www.geeky-gadgets.com/chatgpt-o1-vs-claude-3-5-coding/
- Mô hình ngôn ngữ lớn (LLMs) đã cách mạng hóa xử lý ngôn ngữ tự nhiên, nhưng mô hình ngôn ngữ nhỏ (SLMs) vẫn có vai trò quan trọng.
- LLMs như GPT đã đạt khoảng 180 triệu người dùng vào tháng 3 năm 2024, nhưng chi phí tính toán và tiêu thụ năng lượng tăng vọt.
- Các mô hình nhỏ như Phi-3.8B và Gemma-2B cho thấy hiệu suất tương đương với ít tham số hơn, thu hút sự quan tâm từ các nhà nghiên cứu.
- Nghiên cứu từ Imperial College London cho thấy BERT-base vẫn được tải xuống nhiều, cho thấy sự phổ biến của SLMs trong thực tế.
- SLMs có thể đạt kết quả tương đương với LLMs thông qua các kỹ thuật như chưng cất tri thức và thường vượt trội trong các nhiệm vụ chuyên môn.
- SLMs tiết kiệm tài nguyên, phù hợp cho các ứng dụng thời gian thực và môi trường hạn chế tài nguyên.
- SLMs giúp cải thiện LLMs thông qua việc chọn lọc dữ liệu chất lượng cao cho quá trình huấn luyện.
- Các phương pháp như Model-oriented Data Selection (MoDS) giúp tối ưu hóa quá trình tinh chỉnh hướng dẫn cho LLMs.
- Các mô hình nhỏ cũng có thể giám sát các mô hình lớn hơn, giúp cải thiện khả năng tổng quát và giảm thiểu các lỗi.
- Kỹ thuật như Aligner và Weak-to-Strong Search giúp tăng cường sự phù hợp giữa LLMs và giá trị của con người.
- Các chiến lược kết hợp mô hình sử dụng cả LLMs và SLMs để tối ưu hóa hiệu suất và chi phí.
- SLMs có thể giúp đánh giá hiệu suất của LLMs, khắc phục các hạn chế của các phương pháp truyền thống.
- Các kỹ thuật thích ứng miền sử dụng mô hình nhỏ để cải thiện hiệu suất trong các lĩnh vực cụ thể.
- SLMs có thể tạo ra dữ liệu huấn luyện từ đầu hoặc tăng cường dữ liệu hiện có, cải thiện tính đa dạng cho các mô hình nhỏ hơn.
- SLMs có ưu thế trong các môi trường hạn chế tài nguyên, môi trường cụ thể và các tình huống yêu cầu khả năng giải thích cao.
- Việc lựa chọn giữa LLMs và SLMs cần cân nhắc giữa hiệu suất và khả năng giải thích, tùy thuộc vào yêu cầu cụ thể của ứng dụng.
📌 SLMs vẫn giữ vai trò quan trọng trong kỷ nguyên LLMs, nhờ vào khả năng tiết kiệm tài nguyên, cải thiện hiệu suất và khả năng giải thích. Các mô hình nhỏ có thể đạt hiệu suất tương đương với LLMs trong nhiều nhiệm vụ mà không cần tài nguyên lớn.
https://www.marktechpost.com/2024/09/15/small-but-mighty-the-enduring-relevance-of-small-language-models-in-the-age-of-llms/
• DeepSeek v2.5 là mô hình ngôn ngữ lớn (LLM) nguồn mở tiên tiến, kết hợp giữa DeepSeek phiên bản 2 0628 và DeepSeek Coder phiên bản 2 0724.
• Mô hình này vượt trội hơn các đối thủ hàng đầu như GPT-4 Turbo, Claude 3 và Google Gemini trong nhiều bài kiểm tra chuẩn.
• DeepSeek v2.5 nổi bật với khả năng viết nâng cao, tuân thủ hướng dẫn tốt hơn và phù hợp với sở thích của con người.
• Người dùng có thể truy cập thông qua giao diện web và API, với giá cạnh tranh 0,14 USD/triệu token đầu vào và 0,28 USD/triệu token đầu ra.
• Mô hình cung cấp các tùy chọn cài đặt linh hoạt: triển khai cục bộ hoặc truy cập dựa trên đám mây.
• Tính năng artifact cho phép tạo ra các hình ảnh trực quan từ các lời nhắc.
• Đánh giá nội bộ cho thấy cải thiện đáng kể về tỷ lệ thắng so với các mô hình khác.
• DeepSeek v2.5 có ứng dụng đa dạng: lập trình, suy luận toán học, viết sáng tạo, lý luận logic và đạo đức.
• Người dùng có thể truy cập miễn phí bằng cách đăng ký tài khoản email.
• Mô hình đã được kiểm tra kỹ lưỡng về hiệu suất trong nhiều tác vụ khác nhau.
• DeepSeek v2.5 là giải pháp toàn diện cho các tác vụ đa dạng, tích hợp khả năng lập trình trong mô hình cơ sở.
• Nó vượt trội trong nhiều lĩnh vực như:
- Lập trình: viết thành công các hàm Python và tạo mã SVG
- Suy luận toán học: giải chính xác các bài toán nhiều bước
- Viết sáng tạo: tạo ra các câu chuyện ngắn mạch lạc và hấp dẫn
- Lý luận logic và đạo đức: xử lý hiệu quả các lời nhắc phức tạp
- Trí tuệ cảm xúc: đưa ra phản hồi đồng cảm và chính xác
• DeepSeek v2.5 cung cấp tính năng gọi hàm và đầu ra JSON thông qua API, giúp dễ dàng tích hợp vào các ứng dụng.
• Người dùng có thể cài đặt cục bộ bằng LM Studio hoặc truy cập thông qua trò chuyện trên trình duyệt web.
• Là một giải pháp nguồn mở, DeepSeek v2.5 cung cấp tính linh hoạt và tùy chỉnh cần thiết để thích ứng với nhiều trường hợp sử dụng và quy trình làm việc khác nhau.
📌 DeepSeek v2.5 là mô hình ngôn ngữ nguồn mở vượt trội, đánh bại các đối thủ lớn trong nhiều bài kiểm tra. Với khả năng đa dạng từ lập trình đến sáng tạo, cùng tính linh hoạt và chi phí hợp lý, nó hứa hẹn trở thành công cụ AI mạnh mẽ cho nhiều ứng dụng.
https://www.geeky-gadgets.com/?p=437784
• OpenAI vừa ra mắt dòng mô hình AI mới - OpenAI o1, với khả năng suy luận vượt trội so với các phiên bản trước.
• Điểm nổi bật của o1 là được thiết kế để dành nhiều thời gian suy nghĩ hơn trước khi đưa ra phản hồi, khắc phục hạn chế về khả năng suy luận và nhận thức ngữ cảnh của các mô hình cũ như GPT-4o.
• o1 có thể thực hiện các tác vụ phức tạp và giải quyết các vấn đề khó hơn trong khoa học, lập trình và toán học.
• Gia đình mô hình o1 bao gồm o1 preview với kiến thức rộng và khả năng suy luận cao, và o1-mini nhỏ gọn hơn, nhanh và tiết kiệm chi phí hơn.
• Về hiệu năng, o1 đạt điểm cao ở mức 89% trong các câu hỏi lập trình cạnh tranh và vượt qua độ chính xác của con người ở trình độ tiến sĩ trong các bài kiểm tra vật lý, sinh học và hóa học.
• o1 có ngữ cảnh 128K và thời điểm dừng kiến thức là tháng 10/2023.
• Hiện o1 preview có sẵn trên ChatGPT Plus và API cho nhà phát triển ở cấp độ 5. Trên ChatGPT, o1 preview giới hạn 30 tin nhắn/tuần và o1 mini 50 tin nhắn/tuần.
• Về giá, o1 đắt hơn đáng kể so với GPT-4o:
- o1: $15/1 triệu token đầu vào, $60/1 triệu token đầu ra
- o1-mini: $3/1 triệu token đầu vào, $12/1 triệu token đầu ra
- GPT-4o: $2,5/1 triệu token đầu vào, $10/1 triệu token đầu ra
• So với GPT-4o, o1 cho kết quả vượt trội trong các bài kiểm tra suy luận phức tạp. Ví dụ trong kỳ thi Olympic Toán quốc tế, o1 đạt 83% điểm trong khi GPT-4o chỉ đạt 13%.
• o1 cũng đạt điểm cao hơn trong các bài kiểm tra an toàn, cho thấy khả năng tuân thủ các quy tắc an toàn tốt hơn.
• So với Claude 3.5 Sonnet, o1 có khả năng suy luận tốt hơn nhưng ngữ cảnh thấp hơn (128K so với 500K của Claude for Enterprise).
• OpenAI dự kiến sẽ bổ sung thêm các tính năng như duyệt web, tải file và hình ảnh để o1 hữu ích hơn với mọi người dùng.
📌 OpenAI o1 đánh dấu bước tiến quan trọng trong phát triển AI với khả năng suy luận vượt trội, đặc biệt trong giải quyết vấn đề phức tạp. Tuy nhiên, với mức giá cao gấp 6 lần GPT-4o, người dùng cần cân nhắc kỹ để chọn mô hình phù hợp nhất với nhu cầu sử dụng cụ thể của mình.
https://blog.getbind.co/2024/09/13/openai-o1-vs-gpt-4o-is-it-worth-paying-6x-more/
• Bài viết phân tích và xếp hạng các mô hình ngôn ngữ lớn (LLM) hàng đầu từ 4 gã khổng lồ AI: OpenAI, Meta, Anthropic và Google DeepMind dựa trên 13 tiêu chí khác nhau.
• Các LLM đang định hình lại nhiều ngành công nghiệp và tác động đáng kể đến các ứng dụng AI như trợ lý ảo, chatbot hỗ trợ khách hàng và dịch thuật.
• GPT-4o của OpenAI dẫn đầu về khả năng lập luận đa nhiệm vụ (MMLU) với điểm số 88,7%, theo sau là Llama 3.1 405b của Meta (88,6%) và Claude 3.5 Sonnet của Anthropic (88,3%).
• Trong lĩnh vực lập trình (HumanEval), Claude 3.5 Sonnet đứng đầu với độ chính xác 92%, tiếp theo là GPT-4o (90,2%) và Llama 3.1 405b (89%).
• Về khả năng toán học (MATH), GPT-4o dẫn đầu với 76,6%, Llama 3.1 405b đạt 73,8% và GPT-Turbo đạt 72,6%.
• Llama 3.1 8b có độ trễ thấp nhất (0,3 giây), theo sau là GPT-3.5-T và Llama 3.1 70b (0,4 giây).
• Về chi phí, Llama 3.1 8b là mô hình rẻ nhất với giá $0,05 (đầu vào) / $0,08 (đầu ra), tiếp theo là Gemini 1.5 Flash và GPT-4o-mini.
• Gemini 1.5 Flash có cửa sổ ngữ cảnh lớn nhất (1.000.000 token), Claude 3/3.5 (200.000 token) và GPT-4 Turbo + GPT-4o (128.000 token).
• Claude 3.5 Sonnet dẫn đầu về độ chính xác thực tế (92,5%), tính trung thực (91%) và an toàn (93%).
• GPT-4o đứng đầu về hiệu suất đa ngôn ngữ (92% trên XGLUE) và học không mẫu (88,5%).
• Claude 3.5 Sonnet được đánh giá cao nhất về các cân nhắc đạo đức và giảm thiểu thiên kiến (93%).
📌 Cuộc cạnh tranh giữa các LLM hàng đầu rất gay gắt, mỗi mô hình đều có thế mạnh riêng. Claude 3.5 Sonnet dẫn đầu về lập trình và an toàn, GPT-4o mạnh về lập luận đa nhiệm vụ và toán học, trong khi Llama 3.1 405b nổi bật với chi phí thấp và tốc độ cao. Việc lựa chọn mô hình phù hợp phụ thuộc vào nhu cầu cụ thể của từng ứng dụng.
https://www.marktechpost.com/2024/09/08/top-large-language-models-llms-a-comprehensive-ranking-of-ai-giants-across-13-metrics-including-multitask-reasoning-coding-math-latency-zero-shot-and-few-shot-learning-and-many-more/
• Matt Shumer, đồng sáng lập và CEO của startup viết AI HyperWrite, vừa ra mắt mô hình mới có tên Reflection 70B.
• Reflection 70B là mô hình ngôn ngữ nguồn mở hàng đầu, vượt trội so với các mô hình độc quyền như GPT-4o của OpenAI và Claude Sonnet 3.5 của Anthropic.
• Mô hình được phát triển bằng kỹ thuật mới gọi là Reflection-Tuning, cho phép phát hiện và sửa lỗi của chính nó trước khi đưa ra câu trả lời cuối cùng.
• Reflection 70B đạt hiệu suất cao trong các bài kiểm tra chuẩn như MMLU, MATH, IFEval và GSM8K.
• Mô hình xuất ra quá trình suy luận nội bộ trong thẻ <thinking>, câu trả lời cuối cùng trong thẻ <output>, và sử dụng thẻ <reflection> để sửa lỗi phát hiện được.
• Hiện tại, Reflection 70B đứng đầu trong nhiều tiêu chuẩn và thể hiện hiệu suất vượt trội so với GPT-4o và Llama 3.1 405B.
• Mô hình Reflection 405B dự kiến ra mắt tuần tới, được kỳ vọng sẽ nâng cao tiêu chuẩn cho các mô hình ngôn ngữ lớn toàn cầu.
• Alibaba cũng vừa phát hành Qwen2-VL, mô hình mới nhất trong loạt mô hình thị giác-ngôn ngữ của họ.
• Qwen2-VL có khả năng trò chuyện qua camera, chơi trò chơi bài, và điều khiển điện thoại di động và robot bằng cách hoạt động như một agent.
• Qwen2-VL có 3 phiên bản: mô hình nguồn mở 2 tỷ và 7 tỷ tham số, và mô hình nâng cao 72 tỷ tham số truy cập qua API.
• Mô hình 72 tỷ tham số của Qwen2-VL đạt hiệu suất tốt nhất trong 20 tiêu chuẩn về hiểu thị giác.
• Alibaba cho biết mô hình 72 tỷ tham số của họ thể hiện hiệu suất hàng đầu trong hầu hết các chỉ số, thường vượt qua cả các mô hình độc quyền như GPT-4o và Claude 3.5-Sonnet.
• Qwen2-VL được đánh giá là có ưu thế đáng kể trong việc hiểu tài liệu.
📌 Hai mô hình AI nguồn mở mới Reflection 70B và Qwen2-VL 72B vượt trội GPT-4o và Claude 3.5 trong nhiều tiêu chuẩn. Reflection 70B sử dụng kỹ thuật Reflection-Tuning để tự sửa lỗi, trong khi Qwen2-VL thể hiện khả năng hiểu thị giác vượt trội trên 20 tiêu chuẩn.
https://analyticsindiamag.com/ai-news-updates/new-open-source-champion-reflection-70b-outperforms-gpt-4o-and-claude-sonnet-3-5/
• Groq vừa giới thiệu mô hình thị giác LLaVA v1.5 7B trên Developer Console của họ, biến GroqCloud thành nền tảng đa phương thức hỗ trợ xử lý hình ảnh, âm thanh và văn bản.
• LLaVA (Large Language and Vision Assistant) kết hợp khả năng xử lý ngôn ngữ và thị giác, dựa trên mô hình CLIP của OpenAI và Llama 2 7B của Meta.
• Mô hình này sử dụng kỹ thuật huấn luyện hướng dẫn thị giác để nâng cao khả năng thực hiện hướng dẫn dựa trên hình ảnh và suy luận thị giác.
• LLaVA v1.5 7B xuất sắc trong các tác vụ như trả lời câu hỏi về hình ảnh, tạo chú thích, nhận dạng ký tự quang học và đối thoại đa phương thức.
• Theo Artificial Analysis, thời gian phản hồi của LLaVA v1.5 7B nhanh hơn 4 lần so với GPT-4o của OpenAI.
• Mô hình mới mở ra nhiều ứng dụng thực tế: theo dõi hàng tồn kho cho bán lẻ, cải thiện khả năng tiếp cận trên mạng xã hội bằng mô tả hình ảnh, chatbot dịch vụ khách hàng xử lý tương tác văn bản và hình ảnh.
• LLaVA v1.5 7B giúp tự động hóa các tác vụ trong sản xuất, tài chính, bán lẻ và giáo dục, nâng cao hiệu quả quy trình.
• Các nhà phát triển và doanh nghiệp có thể sử dụng LLaVA v1.5 7B ở chế độ Preview trên GroqCloud.
• Groq gần đây đã hợp tác với Meta, cung cấp các mô hình Llama 3.1 mới nhất (405B Instruct, 70B Instruct và 8B Instruct) cho cộng đồng với tốc độ của Groq.
• Andrej Karpathy, cựu nghiên cứu viên OpenAI, đã khen ngợi tốc độ suy luận của Groq, cho rằng nó mang lại trải nghiệm như AGI khi người dùng có thể nói chuyện với máy tính và nhận phản hồi tức thì.
• Groq được thành lập năm 2016 bởi Ross, khác biệt với các công ty khác bằng cách sử dụng phần cứng LPU độc quyền thay vì GPU.
📌 Groq ra mắt mô hình đa phương thức LLaVA v1.5 7B trên GroqCloud, nhanh hơn 4 lần so với GPT-4o. Mô hình kết hợp xử lý ngôn ngữ và thị giác, mở ra ứng dụng trong nhiều lĩnh vực như bán lẻ, mạng xã hội và dịch vụ khách hàng. Groq cũng hợp tác với Meta cung cấp các mô hình Llama 3.1 mới nhất.
https://analyticsindiamag.com/ai-news-updates/groq-unveils-llava-v1-5-7b-faster-than-openai-gpt-4o/
• SLM (Small Language Model) là các mô hình ngôn ngữ nhỏ, thường có dưới 20 tỷ tham số, trong khi LLM (Large Language Model) như GPT-4 có tới 1,76 nghìn tỷ tham số.
• SLM được thiết kế nhỏ gọn và hiệu quả hơn, cho phép xử lý nhanh hơn và chi phí tính toán thấp hơn, đặc biệt trong môi trường hạn chế tài nguyên.
• Các mô hình nhỏ như Microsoft Phi-2 (2,7 tỷ tham số) đã cho thấy hiệu suất đáng kinh ngạc trong các tác vụ liên quan đến mã. IBM Granite (13 tỷ tham số) thậm chí còn vượt trội hơn Llama 2 (70 tỷ tham số) trong 9/11 tác vụ tài chính.
• SLM cho phép phát triển các mô hình chuyên biệt theo lĩnh vực (Domain-Aligned Models), đặc biệt hữu ích cho các ngành như luật, tài chính, bảo hiểm và y tế.
• Đối với nhà phát triển, SLM giúp rút ngắn chu kỳ phát triển tới 60-70% so với LLM. Khả năng tinh chỉnh trên dữ liệu chuyên ngành mà không tốn kém đang dân chủ hóa việc phát triển AI.
• SLM có thể chạy trên cả đám mây và thiết bị người dùng cuối. Trên đám mây, GPU nhỏ hơn như T4 hoặc V100 có thể xử lý hầu hết khối lượng công việc SLM. Tại biên, các bộ tăng tốc phần cứng như Google Edge TPU hoặc NVIDIA Jetson series đang cho kết quả đầy hứa hẹn.
• SLM đặc biệt phù hợp cho các ứng dụng AI thời gian thực, độ trễ thấp trên các thiết bị như điện thoại thông minh, máy tính bảng và cảm biến IoT.
• Tuy nhiên, SLM cũng có hạn chế như khó xử lý các tác vụ phức tạp đòi hỏi kiến thức rộng hoặc khả năng suy luận tổng quát. Chúng cũng có thể kém linh hoạt hơn trong việc xử lý sự mơ hồ hoặc tạo ra nội dung sáng tạo so với LLM lớn hơn.
• Xu hướng SLM đang thúc đẩy việc đổi mới trong kiến trúc mô hình, kỹ thuật đào tạo và chiến lược triển khai AI. Các công ty như Katonic AI đang tập trung vào các lĩnh vực như chưng cất kiến thức và mô hình hóa thưa thớt để tăng khả năng trong không gian tham số nhỏ hơn.
• Sự phát triển từ LLM đa năng sang SLM chuyên biệt cho thấy xu hướng hướng tới các giải pháp AI hiệu quả và phù hợp với từng lĩnh vực cụ thể.
📌 SLM đang định hình tương lai của AI với hiệu suất ấn tượng trong các tác vụ chuyên biệt, giảm 60-70% thời gian phát triển và chi phí. Xu hướng này hứa hẹn mở ra khả năng áp dụng AI tạo sinh quy mô lớn, có tiềm năng cách mạng hóa toàn bộ ngành công nghiệp AI.
https://www.digit.in/features/general/slm-vs-llm-why-smaller-gen-ai-models-maybe-better.html
• Apple vừa công bố hệ thống 'Apple Intelligence', đánh dấu bước ngoặt trong cách chúng ta tương tác với thiết bị. Đây là hệ thống AI toàn diện được thiết kế để hiểu người dùng và nhu cầu của họ theo cách mà các công cụ AI hiện tại không thể so sánh được.
• Tim Cook, CEO Apple nhấn mạnh hệ thống này phải đủ mạnh mẽ để hỗ trợ những việc quan trọng nhất, trực quan và dễ sử dụng, đồng thời tích hợp sâu vào trải nghiệm sản phẩm.
• Điểm khác biệt của Apple Intelligence là tích hợp sâu với ngữ cảnh cá nhân. Hệ thống dựa vào thói quen, mối quan hệ và giao tiếp của người dùng để cung cấp trợ giúp thực sự cá nhân hóa.
• Apple đặt quyền riêng tư làm nguyên tắc cơ bản. Hệ thống xử lý trên thiết bị, cho phép nhận biết dữ liệu cá nhân mà không thu thập. Điều này được hỗ trợ bởi chip A17 Pro và dòng M.
• Với các tác vụ phức tạp hơn, Apple giới thiệu 'Private Cloud Compute' để mở rộng khả năng AI mà vẫn đảm bảo quyền riêng tư và bảo mật. Dữ liệu không bao giờ được lưu trữ hoặc truy cập bởi Apple.
• Siri được nâng cấp lớn, trở nên tự nhiên và phù hợp ngữ cảnh hơn. Nó có thể duy trì ngữ cảnh hội thoại, trả lời hàng nghìn câu hỏi về tính năng và cài đặt trên các thiết bị Apple. Siri cũng có khả năng nhận biết màn hình để hiểu và thực hiện hành động.
• Apple Intelligence cung cấp công cụ viết mạnh mẽ có thể viết lại, sửa lỗi và tóm tắt văn bản trên nhiều ứng dụng. Nó có thể thay đổi giọng điệu email, viết lại tin nhắn dưới dạng thơ, hoặc tóm tắt cập nhật trạng thái dự án dài.
• Hệ thống cũng giải quyết vấn đề quá tải email bằng cách cung cấp tóm tắt email ngay từ danh sách hộp thư đến, hiển thị tin nhắn ưu tiên và tóm tắt email dài.
• Tính năng 'Genmoji' cho phép tạo emoji tùy chỉnh dựa trên mô tả đơn giản hoặc hình ảnh người từ thư viện ảnh. 'Image Playground' cho phép tạo hình ảnh gốc chỉ trong vài giây.
• Apple Intelligence sẽ ra mắt với iOS 18, iPadOS 18 và macOS Sequoia, ban đầu có sẵn bằng tiếng Anh Mỹ và sẽ mở rộng sang các ngôn ngữ và nền tảng khác trong năm tới.
• Apple cũng thông báo tích hợp với ChatGPT của OpenAI, cho phép người dùng truy cập kiến thức rộng lớn và chuyên môn của nó ngay trong hệ sinh thái Apple.
📌 Apple Intelligence hứa hẹn mang đến cuộc cách mạng trong tương tác người-máy tính, với AI cá nhân hóa tích hợp sâu vào iPhone, iPad và Mac. Hệ thống đặt quyền riêng tư lên hàng đầu với xử lý trên thiết bị, nâng cấp Siri, và cung cấp công cụ viết thông minh. Ra mắt với iOS 18, iPadOS 18 và macOS Sequoia.
https://bernardmarr.com/apples-new-ai-revolution-why-apple-intelligence-could-change-everything/
• xAI của Elon Musk vừa phát hành chatbot Grok-2 và Grok-2 mini, có thể truy cập thông qua gói đăng ký 8 USD/tháng trên mạng xã hội X.
• Trong 3 ngày qua, hai nhà phát triển của xAI là Lianmin Zheng và Saeed Maleki đã viết lại hoàn toàn mã stack suy luận, giúp tăng tốc độ xử lý thông tin và đưa ra phản hồi của cả hai phiên bản.
• Họ sử dụng SGLang - một hệ thống nguồn mở hiệu quả cao để thực thi các chương trình mô hình ngôn ngữ phức tạp, đạt thông lượng cao hơn gấp 6,4 lần so với các hệ thống hiện có.
• Theo Igor Babuschkin của xAI, Grok-2 mini giờ đây nhanh hơn gấp 2 lần so với hôm trước. Cả hai mô hình không chỉ nhanh hơn mà còn chính xác hơn một chút.
• Trên bảng xếp hạng Chatbot Arena của bên thứ ba, Grok-2 đã vươn lên vị trí thứ 2 với điểm Arena ấn tượng 1.293, dựa trên 6.686 lượt bình chọn. Điều này đưa Grok-2 lên vị trí số 2 trong số các mô hình AI mạnh nhất thế giới, ngang hàng với Gemini-1.5 Pro của Google và chỉ đứng sau ChatGPT-4o mới nhất của OpenAI.
• Grok-2 mini cũng leo lên vị trí thứ 5 với điểm Arena 1.268 từ 7.266 lượt bình chọn, chỉ đứng sau GPT-4o mini và Claude 3.5 Sonnet.
• Grok-2 đặc biệt xuất sắc trong các tác vụ toán học, xếp hạng số 1. Mô hình này cũng giữ vị trí cao trong nhiều danh mục khác như Hard Prompts, Coding và Instruction-following.
• Ưu điểm chính của Grok-2 mini so với Grok-2 đầy đủ là tốc độ nhanh hơn. xAI cam kết sẽ tiếp tục cải thiện tốc độ xử lý của Grok-2 mini.
• Sự thành công của các mô hình này cho thấy cam kết của xAI trong việc đổi mới và mở rộng giới hạn của AI.
📌 Grok-2 và Grok-2 mini của xAI đã đạt được bước tiến đáng kể về tốc độ và hiệu suất chỉ trong 3 ngày, vươn lên top đầu bảng xếp hạng toàn cầu. Với điểm Arena 1.293, Grok-2 đã trở thành đối thủ đáng gờm của các mô hình hàng đầu như ChatGPT-4o và Gemini-1.5 Pro.
https://venturebeat.com/ai/grok-2-gets-a-speed-bump-after-developers-rewrite-code-in-three-days/
• Grok-2, chatbot AI mới của công ty xAI của Elon Musk, đang được triển khai dần cho người dùng cao cấp trên nền tảng X (Twitter cũ).
• Grok-2 được huấn luyện trên hàng tỷ tweet và dữ liệu thời gian thực trên X, cho phép nó có một số khả năng độc đáo so với ChatGPT:
• Tìm kiếm thời gian thực trên X: Grok-2 có quyền truy cập vào thông tin thời gian thực trên X, một cơ sở dữ liệu khổng lồ mà ChatGPT không có. Trung bình có 200 tỷ tweet được đăng mỗi năm kể từ 2006.
• Tạo ảnh không lọc: Grok-2 có thể tạo ra các hình ảnh không bị lọc thông qua tích hợp với FLUX, bao gồm cả hình ảnh của người nổi tiếng và nhân vật chính trị.
• 2 chế độ: Grok-2 có chế độ thông thường và chế độ "vui nhộn" với tính cách riêng biệt, được cho là thú vị hơn các phản hồi nhàm chán của ChatGPT.
• Trích dẫn bài đăng: Grok-2 không chỉ tóm tắt tin tức mà còn trích dẫn các tweet mà nó lấy dữ liệu, cho phép kiểm tra thực tế tốt hơn.
• Tích hợp trực tiếp với X: Grok-2 tích hợp trực tiếp vào X và có tab riêng trên nền tảng web và di động. Có nút "Hỏi Grok" trên các bài đăng để tóm tắt nhanh chóng.
• Chế giễu hồ sơ X: Trong chế độ vui nhộn, Grok-2 có thể chế giễu bất kỳ tài khoản X nào và thậm chí tìm ra những tweet tệ nhất của họ.
• Mặc dù có những tính năng độc đáo này, Grok-2 vẫn chưa được đánh giá là tốt hơn ChatGPT trong hầu hết các trường hợp. OpenAI vẫn đang dẫn đầu cuộc đua LLM, mặc dù xAI đang thu hẹp khoảng cách một cách nghiêm túc.
📌 Grok-2, chatbot AI mới của Elon Musk, có 6 tính năng độc đáo so với ChatGPT như tìm kiếm thời gian thực trên X và tạo ảnh không lọc. Mặc dù chưa vượt qua ChatGPT, Grok-2 đang thu hẹp khoảng cách và hứa hẹn thay đổi cách sử dụng nền tảng X.
https://www.forbes.com/sites/jodiecook/2024/08/22/6-things-elon-musks-grok-2-ai-chatbot-can-do-that-chatgpt-cant/
- OpenAI đã công bố phiên bản mới của ChatGPT-4o (20240808), đánh bại Google Gemini trong bảng xếp hạng chatbot.
- ChatGPT-4o đạt điểm số 1314, cao hơn 17 điểm so với Gemini-1.5-Pro-Exp.
- Trước đó, Gemini đã giữ vị trí dẫn đầu trong một thời gian dài.
- Claude từng đứng đầu bảng xếp hạng LMSys Chatbot Arena nhưng đã bị vượt qua.
- Theo thông tin từ lmsys.org trên X, ChatGPT-4o cho thấy sự cải thiện đáng kể trong các lĩnh vực kỹ thuật, đặc biệt là trong lập trình với điểm số cao hơn 30 so với phiên bản trước đó.
- OpenAI đã phát hành phiên bản mới này cùng ngày với sự kiện Made by Google, nơi Google nhấn mạnh vị trí dẫn đầu của họ.
- Người dùng đã nhận thấy ChatGPT-4o hoạt động nhanh hơn và hiệu quả hơn, có khả năng xây dựng một ứng dụng iOS trong vòng một giờ.
- Cùng với những cải tiến trong ứng dụng Mac, đây là một tuần quan trọng đối với người dùng ChatGPT và OpenAI.
- Các mô hình mới và phiên bản cải tiến đang liên tục được ra mắt, có khả năng tạo ra sự thay đổi trong bảng xếp hạng trong thời gian tới.
- Google Ultra 1.5 và Claude Opus 1.5 vẫn chưa được ra mắt, trong khi xAI's Grok 2 đã xuất hiện trong top 10.
📌 OpenAI đã giành lại vị trí dẫn đầu với ChatGPT-4o, đạt 1314 điểm, vượt qua Gemini-1.5-Pro-Exp. Sự cải thiện trong lập trình và tốc độ là điểm nổi bật. Thị trường chatbot đang trong giai đoạn cạnh tranh khốc liệt với nhiều mô hình mới sắp ra mắt.
https://www.tomsguide.com/ai/openai-knocks-gemini-off-the-top-of-chatbot-leaderboard-with-its-new-model
• Các nhà nghiên cứu tại Apple đã giới thiệu ToolSandbox, một tiêu chuẩn đánh giá mới nhằm đánh giá toàn diện hơn khả năng của các trợ lý AI trong thế giới thực.
• ToolSandbox bao gồm 3 yếu tố quan trọng thường thiếu trong các tiêu chuẩn đánh giá khác: tương tác có trạng thái, khả năng hội thoại và đánh giá động.
• Tiêu chuẩn mới này nhằm mô phỏng các tình huống thực tế chặt chẽ hơn. Ví dụ, nó có thể kiểm tra xem một trợ lý AI có hiểu rằng cần bật dịch vụ di động của thiết bị trước khi gửi tin nhắn văn bản hay không.
• Các nhà nghiên cứu đã thử nghiệm nhiều mô hình AI khác nhau bằng ToolSandbox, cho thấy khoảng cách đáng kể về hiệu suất giữa các mô hình độc quyền và nguồn mở.
• Phát hiện này thách thức các báo cáo gần đây cho rằng AI nguồn mở đang nhanh chóng bắt kịp các hệ thống độc quyền.
• Nghiên cứu của Apple cho thấy ngay cả các trợ lý AI tiên tiến nhất cũng gặp khó khăn với các tác vụ phức tạp liên quan đến phụ thuộc trạng thái, chuẩn hóa và các tình huống thiếu thông tin.
• Thú vị là nghiên cứu phát hiện ra rằng các mô hình lớn hơn đôi khi hoạt động kém hơn các mô hình nhỏ hơn trong một số tình huống nhất định, đặc biệt là những tình huống liên quan đến phụ thuộc trạng thái.
• Việc giới thiệu ToolSandbox có thể có tác động sâu rộng đến việc phát triển và đánh giá các trợ lý AI. Bằng cách cung cấp môi trường kiểm tra thực tế hơn, nó có thể giúp các nhà nghiên cứu xác định và giải quyết các hạn chế chính trong các hệ thống AI hiện tại.
• Nhóm nghiên cứu đã thông báo rằng khung đánh giá ToolSandbox sẽ sớm được phát hành trên Github, mời cộng đồng AI rộng lớn hơn xây dựng và tinh chỉnh công trình quan trọng này.
• Mặc dù các phát triển gần đây trong AI nguồn mở đã tạo ra sự phấn khích về việc dân chủ hóa quyền truy cập vào các công cụ AI tiên tiến, nghiên cứu của Apple nhắc nhở rằng vẫn còn những thách thức đáng kể trong việc tạo ra các hệ thống AI có khả năng xử lý các tác vụ phức tạp trong thế giới thực.
📌 Apple giới thiệu ToolSandbox, tiêu chuẩn đánh giá mới cho trợ lý AI. Kết quả cho thấy khoảng cách lớn giữa mô hình độc quyền và nguồn mở. Các mô hình lớn hơn không phải lúc nào cũng hoạt động tốt hơn trong các tác vụ phức tạp. ToolSandbox sẽ sớm được phát hành trên Github để cộng đồng AI tiếp tục phát triển.
https://venturebeat.com/ai/apple-toolsandbox-reveals-open-source-ai-behind-proprietary-models/
• Mô hình ngôn ngữ nhỏ có ít tham số hơn và yêu cầu tính toán thấp hơn, mang lại nhiều lợi thế về hiệu quả và tính thực tiễn.
• Ưu điểm của mô hình nhỏ:
- Dễ dàng huấn luyện và triển khai
- Phù hợp cho các ứng dụng có tài nguyên tính toán hạn chế
- Có thể triển khai trên các thiết bị như điện thoại di động hoặc hệ thống nhúng
- Tiêu thụ ít năng lượng hơn
- Phù hợp cho xử lý thời gian thực
• Hạn chế của mô hình nhỏ:
- Khó hiểu các mẫu ngôn ngữ phức tạp
- Khó tạo văn bản mạch lạc cho các đoạn dài
- Độ chính xác thấp hơn khi xử lý ngôn ngữ mơ hồ hoặc có nhiều sắc thái
• Mô hình ngôn ngữ lớn có hàng tỷ tham số, thể hiện khả năng đáng kinh ngạc trong việc hiểu và tạo văn bản giống con người.
• Ưu điểm của mô hình lớn:
- Hiệu suất tốt trên nhiều tác vụ NLP khác nhau mà không cần tinh chỉnh nhiều
- Có thể tạo văn bản sáng tạo, trả lời câu hỏi phức tạp, mô phỏng cuộc trò chuyện với độ mạch lạc cao
- Đa năng, phù hợp cho nghiên cứu, tạo nội dung và các ứng dụng cần hiểu/tạo văn bản phức tạp
• Thách thức của mô hình lớn:
- Yêu cầu tài nguyên tính toán lớn để huấn luyện và suy luận
- Tiêu thụ nhiều năng lượng
- Có thể tạo ra nội dung thiên vị hoặc có hại do dữ liệu huấn luyện
• Việc lựa chọn giữa mô hình nhỏ và lớn phụ thuộc vào nhu cầu cụ thể của ứng dụng:
- Mô hình nhỏ phù hợp cho ứng dụng có tài nguyên hạn chế hoặc cần xử lý thời gian thực
- Mô hình lớn phù hợp cho các tác vụ cần hiểu và tạo văn bản phức tạp
• Cách tiếp cận kết hợp có thể là giải pháp hiệu quả nhất trong một số trường hợp:
- Sử dụng mô hình nhỏ cho xử lý văn bản ban đầu hoặc lọc
- Sử dụng mô hình lớn cho phân tích hoặc tạo văn bản chuyên sâu hơn
📌 Mô hình ngôn ngữ nhỏ và lớn đều có vai trò riêng trong NLP. Mô hình nhỏ hiệu quả cho ứng dụng thời gian thực và thiết bị hạn chế. Mô hình lớn mạnh mẽ cho tác vụ phức tạp. Cân nhắc giữa hiệu quả và sức mạnh là chìa khóa để lựa chọn mô hình phù hợp.
https://www.marktechpost.com/2024/08/10/small-and-large-language-models-balancing-precision-efficiency-and-power-in-the-evolving-landscape-of-natural-language-processing/
SEO contents:
• Startup AI Galileo vừa công bố bản đánh giá toàn diện cho thấy các mô hình ngôn ngữ nguồn mở đang nhanh chóng thu hẹp khoảng cách hiệu suất với các đối thủ độc quyền.
• Chỉ số ảo giác thường niên lần thứ 2 của Galileo đánh giá 22 mô hình ngôn ngữ lớn hàng đầu về xu hướng tạo ra thông tin không chính xác. Mặc dù các mô hình đóng vẫn dẫn đầu tổng thể, nhưng khoảng cách đã thu hẹp đáng kể chỉ trong 8 tháng.
• Claude 3.5 Sonnet của Anthropic đứng đầu chỉ số với hiệu suất tốt nhất trên tất cả các tác vụ, vượt qua các sản phẩm của OpenAI từng thống trị bảng xếp hạng năm ngoái.
• Gemini 1.5 Flash của Google nổi lên là lựa chọn hiệu quả nhất về chi phí, mang lại kết quả mạnh mẽ với giá chỉ bằng một phần nhỏ so với các mô hình hàng đầu.
• Qwen2-72B-Instruct của Alibaba hoạt động tốt nhất trong số các mô hình nguồn mở, đạt điểm cao trên các đầu vào ngắn và trung bình.
• Chỉ số tập trung vào cách các mô hình xử lý các độ dài ngữ cảnh khác nhau, từ đoạn ngắn đến tài liệu dài, phản ánh việc sử dụng AI ngày càng tăng cho các tác vụ như tóm tắt báo cáo dài hoặc trả lời câu hỏi về bộ dữ liệu lớn.
• Kết quả cho thấy mô hình lớn hơn không phải lúc nào cũng tốt hơn. Trong một số trường hợp, các mô hình nhỏ hơn vượt trội hơn các đối thủ lớn hơn, cho thấy thiết kế hiệu quả đôi khi có thể vượt qua quy mô thuần túy.
• Xu hướng này có thể làm giảm rào cản gia nhập cho các startup và nhà nghiên cứu, đồng thời tạo áp lực buộc các công ty lớn phải đổi mới nhanh hơn hoặc có nguy cơ mất lợi thế.
• Khi các mô hình nguồn mở cải thiện và trở nên hiệu quả hơn về chi phí, các công ty có thể triển khai khả năng AI mạnh mẽ mà không cần dựa vào các dịch vụ độc quyền đắt tiền.
• Galileo dự định cập nhật benchmark hàng quý, cung cấp thông tin liên tục về sự cân bằng thay đổi giữa công nghệ AI nguồn mở và độc quyền.
• Vikram Chatterji, đồng sáng lập và CEO của Galileo, dự đoán sự phát triển hơn nữa trong lĩnh vực này, bao gồm các mô hình multimodal và hệ thống dựa trên agent, đòi hỏi các framework đánh giá mới.
📌 AI nguồn mở đang thu hẹp khoảng cách với các mô hình độc quyền, với Claude 3.5 Sonnet của Anthropic dẫn đầu. Gemini 1.5 Flash của Google nổi bật về hiệu quả chi phí. Xu hướng này có thể dân chủ hóa khả năng AI tiên tiến và thúc đẩy đổi mới trên nhiều ngành.
https://venturebeat.com/ai/open-source-ai-narrows-gap-with-tech-giants-new-benchmark-reveals/
• Meta vừa ra mắt mô hình ngôn ngữ lớn nhất của họ - Llama 3.1 405B, được quảng cáo là mô hình nguồn mở đầu tiên có thể cạnh tranh với các mô hình đóng như GPT-4 và Gemini 1.5.
• Tác giả đã thử nghiệm Llama 3.1 405B bằng một câu hỏi đơn giản về cách chia động từ "ყოფნა" (có nghĩa là "là") trong tiếng Georgia.
• Kết quả cho thấy Llama 3.1 405B đã thất bại hoàn toàn, đưa ra câu trả lời vô nghĩa và sai lệch so với câu trả lời chính xác của GPT-4o mini.
• Thử nghiệm được thực hiện trên cả trang web Meta AI chính thức và nền tảng HuggingChat, đều cho kết quả tương tự.
• Điều này đặc biệt đáng chú ý vì các nhà nghiên cứu của Meta đã nhấn mạnh về khả năng đa ngôn ngữ được cải thiện của Llama 3.1 trong báo cáo kỹ thuật.
• Mô hình có xu hướng tạo ra các từ nghe có vẻ hợp lệ trong tiếng Georgia nhưng thực tế là sai hoàn toàn, cho thấy dấu hiệu của việc quá khái quát hóa.
• Khi thử lại nhiều lần, Llama 3.1 405B đôi khi có thể đưa ra câu trả lời đúng cho thì hiện tại, nhưng lại thất bại với thì tương lai.
• Đáng chú ý là phiên bản nhỏ hơn Llama 3.1 70B lại có thể trả lời đúng ngay từ lần đầu tiên, gợi ý rằng việc tăng kích thước và sức mạnh tính toán có thể làm giảm chất lượng kết quả trong một số trường hợp.
• Meta đã sử dụng nhiều dữ liệu tổng hợp để "tinh chỉnh" mô hình. Điều này đặt ra câu hỏi liệu việc sử dụng dữ liệu tổng hợp ở quy mô lớn có góp phần gây ra hiện tượng "quá chuẩn hóa" hay không.
📌 Llama 3.1 405B của Meta thất bại trước câu hỏi đơn giản về ngôn ngữ Georgia, trong khi mô hình nhỏ hơn 70B lại trả lời đúng. Điều này đặt ra nghi vấn về hiệu quả của việc tăng kích thước mô hình và sử dụng dữ liệu tổng hợp quy mô lớn trong AI tạo sinh.
https://www.zdnet.com/article/i-broke-metas-llama-3-1-405b-with-one-question-which-gpt-4o-mini-gets-right/
• Meta vừa ra mắt chính thức Llama 3.1 405B, một mô hình AI nguồn mở tiên tiến, cùng với các phiên bản 70B và 8B. Đây là mô hình đầu tiên có sẵn công khai có khả năng cạnh tranh với các mô hình AI hàng đầu về kiến thức chung, khả năng điều khiển, toán học, sử dụng công cụ và dịch đa ngôn ngữ.
• Mark Zuckerberg, CEO Meta, nhấn mạnh tầm nhìn dài hạn của công ty là xây dựng trí tuệ tổng quát, mở nguồn một cách có trách nhiệm và phổ biến rộng rãi để mọi người đều có thể hưởng lợi.
• Llama 3.1 vượt trội GPT-4 trong một số lĩnh vực quan trọng:
- Khả năng tiếp cận: Llama 3.1 là mô hình nguồn mở, có thể tải xuống và phát triển miễn phí. Ngược lại, GPT-4 là mô hình đóng, chỉ có thể truy cập thông qua API của OpenAI.
- Hiệu suất benchmark: Trong suy luận toán học (GSM8K), Llama 3.1 đạt 96,82% so với 94,24% của GPT-4. Về suy luận thông thường (Winograde), Llama 3.1 đạt 86,74% so với 82,16% của GPT-4.
- Hiệu quả chi phí: Meta tuyên bố chi phí vận hành Llama 3.1 trong sản xuất thấp hơn khoảng 50% so với GPT-4.
• Dự đoán giá: Llama 3.1 405B được kỳ vọng sẽ là lựa chọn tiết kiệm hơn so với GPT-4 và Claude 3.5 Sonnet, cung cấp chất lượng tương đương với giá thấp hơn. Phiên bản FP8 có thể được định giá từ 1,5 đến 3 USD, trong khi FP16 từ 3,5 đến 5 USD.
• Khả năng đa ngôn ngữ: Llama 3.1 hỗ trợ nhiều ngôn ngữ như Tây Ban Nha, Bồ Đào Nha, Ý, Đức, Thái, Pháp và Hindi. GPT-4 thể hiện khả năng hiểu ngôn ngữ vượt trội, đặc biệt trong các ngữ cảnh phức tạp.
• Tính năng mới: GPT-4 có lợi thế với tính năng giọng nói và thị giác mới, được đánh giá là rất thực tế và nhanh chóng. Đây được coi là tương lai của cách người dùng tương tác với chatbot.
• Cộng đồng đang thảo luận sôi nổi về việc so sánh hai mô hình, với nhiều ý kiến cho rằng cả hai đều mang lại lợi ích cho người dùng theo những cách khác nhau.
📌 Llama 3.1 405B của Meta đang thách thức vị trí dẫn đầu của GPT-4 với hiệu suất vượt trội trong nhiều lĩnh vực, chi phí thấp hơn 50% và khả năng tiếp cận rộng rãi nhờ mô hình nguồn mở. Tuy nhiên, GPT-4 vẫn giữ lợi thế về tính năng giọng nói và thị giác tiên tiến.
https://analyticsindiamag.com/ai-trends-future/llama-3-1-vs-gpt-4o/
• Llama 3.1, GPT-4o và Claude 3.5 là ba mô hình AI hàng đầu hiện nay, mỗi mô hình đều có những điểm mạnh và ứng dụng riêng.
• Llama 3.1 do Meta phát triển, là mô hình nguồn mở với độ dài ngữ cảnh lên tới 128K. Phiên bản lớn nhất Llama 3.1 405B có khả năng cạnh tranh với các mô hình độc quyền tốt nhất.
• Kiến trúc của Llama 3.1 tập trung vào mô hình transformer chỉ giải mã với các tối ưu hóa về khả năng mở rộng và ổn định. Mô hình hỗ trợ 8 ngôn ngữ và có thể xử lý các tác vụ phức tạp như tạo dữ liệu tổng hợp.
• Meta đã hợp tác với AWS, NVIDIA và Google Cloud để đảm bảo Llama 3.1 có thể truy cập và tích hợp trên nhiều nền tảng.
• GPT-4o là một biến thể của GPT-4 của OpenAI, được thiết kế để cân bằng giữa tính linh hoạt và độ sâu trong hiểu và tạo ngôn ngữ.
• GPT-4o có khả năng tạo văn bản mạch lạc, chính xác về ngữ cảnh trong nhiều ứng dụng khác nhau. Mô hình này thể hiện tốt trong nhiều tiêu chuẩn đánh giá và ứng dụng thực tế.
• Một trong những tính năng nổi bật của GPT-4o là khả năng tích hợp với nhiều công cụ và API khác nhau, nâng cao chức năng trong các ứng dụng thực tế.
• Claude 3.5 do Anthropic phát triển, tập trung vào tốc độ và độ chính xác. Mô hình Claude 3.5 Sonnet vượt trội hơn các phiên bản trước đó trong nhiều lĩnh vực chính.
• Claude 3.5 Sonnet hoạt động nhanh gấp đôi so với phiên bản trước Claude 3 Opus, phù hợp cho các tác vụ yêu cầu thời gian phản hồi nhanh.
• Anthropic đã tập trung vào việc nâng cao các khía cạnh an toàn và quyền riêng tư của Claude 3.5, kết hợp thử nghiệm nghiêm ngặt và phản hồi từ các chuyên gia bên ngoài.
• Llama 3.1 nổi bật với tính chất nguồn mở và hỗ trợ cộng đồng rộng rãi. GPT-4o cung cấp cách tiếp cận cân bằng, xuất sắc trong cả lĩnh vực sáng tạo và kỹ thuật. Claude 3.5 nhấn mạnh tốc độ và độ chính xác, lý tưởng cho các ứng dụng yêu cầu phản hồi nhanh chóng và chính xác.
📌 Llama 3.1, GPT-4o và Claude 3.5 là 3 mô hình AI hàng đầu với những điểm mạnh riêng. Llama 3.1 nổi bật với tính nguồn mở, GPT-4o cân bằng giữa sáng tạo và kỹ thuật, Claude 3.5 tập trung vào tốc độ và độ chính xác. Việc lựa chọn phụ thuộc vào nhu cầu cụ thể của người dùng.
https://www.marktechpost.com/2024/07/27/llama-3-1-vs-gpt-4o-vs-claude-3-5-a-comprehensive-comparison-of-leading-ai-models/
• OpenAI vừa công bố SearchGPT, công cụ tìm kiếm mới nhằm cạnh tranh trực tiếp với Google. Hiện đang trong giai đoạn thử nghiệm và sẽ được tích hợp vào ứng dụng ChatGPT chính.
• SearchGPT sử dụng kết quả dạng hội thoại: Thay vì chỉ nhập từ khóa, người dùng đặt câu hỏi và trò chuyện với công cụ tìm kiếm.
• Cho phép đặt câu hỏi tiếp theo: Người dùng có thể hỏi thêm các câu hỏi liên quan dựa trên kết quả trước đó, giống như trò chuyện với chuyên gia.
• Không có quảng cáo: Khác với Google, SearchGPT hiện không hiển thị quảng cáo trong kết quả tìm kiếm.
• Giao diện đơn giản hơn: SearchGPT có giao diện tối giản với ô tìm kiếm, không có các tính năng phụ như Google Discover hay liên kết Gmail.
• Hợp tác với các nhà xuất bản: OpenAI cam kết làm việc với các nhà xuất bản và phóng viên để đảm bảo báo chí vẫn đóng vai trò quan trọng. SearchGPT sẽ trích dẫn và liên kết đến các nguồn tin đáng tin cậy.
• Tuy nhiên, việc cạnh tranh với Google Search vẫn là thách thức lớn đối với OpenAI. Tốc độ và độ chính xác của SearchGPT sẽ quyết định khả năng cạnh tranh và các trường hợp sử dụng phù hợp.
• SearchGPT đang trong giai đoạn thử nghiệm và cần được trải nghiệm thực tế để đánh giá hiệu quả so với Google Search.
📌 SearchGPT của OpenAI đang thử nghiệm với 5 điểm khác biệt chính so với Google Search: kết quả hội thoại, câu hỏi tiếp theo, không quảng cáo, giao diện đơn giản và hợp tác với nhà xuất bản. Tuy nhiên, cần thời gian để đánh giá khả năng cạnh tranh thực sự với Google.
https://www.tomsguide.com/ai/chatgpt/5-ways-searchgpt-is-very-different-than-google-search
• SciPhi vừa công bố Triplex - mô hình ngôn ngữ tiên tiến (LLM) mã nguồn mở chuyên dụng để xây dựng đồ thị tri thức.
• Triplex giúp chuyển đổi dữ liệu phi cấu trúc số lượng lớn thành dạng có cấu trúc, giảm đáng kể chi phí và độ phức tạp so với các phương pháp truyền thống.
• Mô hình này có sẵn trên các nền tảng như HuggingFace và Ollama, hứa hẹn trở thành công cụ quan trọng cho các nhà khoa học dữ liệu và phân tích.
• Triplex được thiết kế để xây dựng đồ thị tri thức hiệu quả, vượt trội so với các mô hình tiên tiến như GPT-4o.
• Đồ thị tri thức rất quan trọng để trả lời các truy vấn quan hệ phức tạp, nhưng phương pháp xây dựng truyền thống tốn kém và đòi hỏi nhiều tài nguyên.
• Ví dụ, quy trình GraphRAG gần đây của Microsoft vẫn còn tốn kém, yêu cầu ít nhất một token đầu ra cho mỗi token đầu vào.
• Triplex giúp giảm chi phí tạo đồ thị tri thức xuống 10 lần bằng cách chuyển đổi văn bản phi cấu trúc thành "bộ ba ngữ nghĩa" - các phần tử cơ bản của đồ thị tri thức.
• Khi so sánh với GPT-4o, Triplex cho thấy hiệu suất vượt trội về cả chi phí và độ chính xác. Mô hình trích xuất bộ ba của nó đạt kết quả tương đương GPT-4o nhưng với chi phí thấp hơn nhiều.
• Việc giảm chi phí đáng kể này là nhờ kích thước mô hình nhỏ hơn và khả năng hoạt động mà không cần ngữ cảnh few-shot mở rộng.
• Triplex được đào tạo thêm bằng DPO (Tối ưu hóa lập trình động) và KTO (Tối ưu hóa bộ ba tri thức), sử dụng bộ dữ liệu dựa trên ưu tiên thông qua bỏ phiếu đa số và sắp xếp tô pô.
• Kết quả đánh giá Claude-3.5 Sonnet cho thấy Triplex vượt trội so với các mô hình khác như triplex-base và triplex-kto, với tỷ lệ thắng trên 50% khi so sánh trực tiếp với GPT-4o.
• Hiệu suất xuất sắc của Triplex dựa trên việc đào tạo trên bộ dữ liệu đa dạng và toàn diện, bao gồm các nguồn uy tín như DBPedia, Wikidata, văn bản web và bộ dữ liệu tổng hợp.
• Một ứng dụng ngay lập tức của Triplex là xây dựng đồ thị tri thức cục bộ sử dụng công cụ R2R RAG kết hợp với Neo4J.
📌 SciPhi ra mắt Triplex - mô hình ngôn ngữ mã nguồn mở tiên tiến giúp giảm chi phí xây dựng đồ thị tri thức xuống 10 lần. Với hiệu suất vượt trội so với GPT-4o và khả năng chuyển đổi dữ liệu phi cấu trúc hiệu quả, Triplex mở ra cơ hội mới cho phân tích dữ liệu và tạo ra insights trong nhiều ngành công nghiệp.
https://www.marktechpost.com/2024/07/22/sciphi-open-sourced-triplex-a-sota-llm-for-knowledge-graph-construction-provides-data-structuring-with-cost-effective-and-efficient-solutions/
• Fal AI vừa phát hành Auraflow - mô hình AI tạo ảnh nguồn mở mới với giấy phép Apache 2.0, cạnh tranh với Stable Diffusion 3 (SD3) của Stability AI.
• Auraflow được đào tạo trong hơn 4 tuần với nhiều kích thước, độ phân giải và tỷ lệ khung hình khác nhau. Nó đạt điểm GenEval 0,64 và 0,703 khi sử dụng pipeline tăng cường prompt.
• Mô hình hiện đang ở phiên bản beta 0.1, yêu cầu GPU có khoảng 12GB VRAM để chạy phiên bản fp16. Fal AI cho biết đang phát triển phiên bản nhỏ gọn hơn.
• So sánh Auraflow và SD3 qua nhiều phong cách và chủ đề:
- Phong cách nghệ thuật: Hòa, Auraflow tốt hơn về phong cách ấn tượng, SD3 chi tiết hơn.
- Hiện thực: SD3 thắng với hình ảnh chi tiết và siêu thực hơn.
- Minh họa: SD3 thắng với hình ảnh đáng sợ và chi tiết hơn.
- Tuân thủ prompt: Auraflow thắng, nắm bắt tốt hơn các yếu tố trong prompt.
- Nhận thức không gian: Hòa, cả hai đều thể hiện tốt.
- Anime/manga: SD3 thắng với phong cách truyện tranh sống động hơn.
• Auraflow nổi trội với phong cách ấn tượng, kỳ ảo. SD3 mạnh hơn về chi tiết, siêu thực và năng động.
• Giấy phép nguồn mở của Auraflow cho phép sử dụng, sao chép và phân phối tự do, thuận lợi hơn cho việc tinh chỉnh so với SD3.
📌 Auraflow là đối thủ mới đáng gờm của SD3 trong lĩnh vực AI tạo ảnh nguồn mở. Mặc dù SD3 vẫn nhỉnh hơn về chất lượng hình ảnh, giấy phép Apache 2.0 của Auraflow mang lại lợi thế chiến lược, hứa hẹn tiềm năng phát triển mạnh mẽ trong tương lai.
https://decrypt.co/240883/auraflow-comparison-sd3-fal-ai-new-model
• Groq, một startup phần cứng AI, đã phát hành hai mô hình ngôn ngữ nguồn mở vượt trội các gã khổng lồ công nghệ về khả năng sử dụng công cụ chuyên biệt.
• Mô hình Llama-3-Groq-70B-Tool-Use đã giành vị trí số 1 trên Bảng xếp hạng Gọi hàm Berkeley (BFCL), vượt qua các sản phẩm độc quyền từ OpenAI, Google và Anthropic.
• Mô hình 70B tham số đạt độ chính xác tổng thể 90,76% trên BFCL, trong khi mô hình 8B nhỏ hơn đạt 89,06%, xếp hạng thứ 3 tổng thể.
• Groq phát triển các mô hình này cùng với công ty nghiên cứu AI Glaive, sử dụng kết hợp tinh chỉnh toàn bộ và Tối ưu hóa Ưu tiên Trực tiếp (DPO) trên mô hình cơ sở Llama-3 của Meta.
• Nhóm nhấn mạnh việc chỉ sử dụng dữ liệu tổng hợp được tạo ra một cách có đạo đức để đào tạo, giải quyết các mối quan ngại phổ biến về quyền riêng tư dữ liệu và overfitting.
• Bằng cách đạt hiệu suất hàng đầu chỉ sử dụng dữ liệu tổng hợp, Groq thách thức quan niệm cho rằng cần lượng lớn dữ liệu thực tế để tạo ra các mô hình AI tiên tiến.
• Các mô hình hiện có sẵn thông qua API Groq và Hugging Face, một nền tảng phổ biến để chia sẻ các mô hình học máy.
• Groq cũng ra mắt demo công khai trên Hugging Face Spaces, cho phép người dùng tương tác với mô hình và kiểm tra khả năng sử dụng công cụ của nó.
• Cộng đồng AI đã phản ứng nhiệt tình, với nhiều nhà nghiên cứu và nhà phát triển háo hức khám phá khả năng của các mô hình.
• Cách tiếp cận nguồn mở của Groq tương phản rõ rệt với các hệ thống đóng của các công ty công nghệ lớn hơn.
• Sự thành công của các mô hình Groq có thể dẫn đến một sự thay đổi mô hình trong cách AI được phát triển và triển khai, có khả năng dân chủ hóa quyền truy cập vào các khả năng AI tiên tiến.
📌 Mô hình AI nguồn mở Llama-3-Groq-70B của Groq đạt vị trí số 1 trên bảng xếp hạng BFCL với độ chính xác 90,76%, vượt qua GPT-4 và Claude. Sử dụng dữ liệu tổng hợp đạo đức, mô hình mở ra khả năng dân chủ hóa AI và thúc đẩy đổi mới trong ngành.
https://venturebeat.com/ai/groq-open-source-llama-ai-model-tops-leaderboard-outperforming-gpt-4o-and-claude-in-function-calling/
- Reka, một startup AI với 4/5 đồng sáng lập đến từ Google Brain và DeepMind, ra mắt vào tháng 7/2023 và nhanh chóng tung ra các mô hình ngôn ngữ đa phương thức có khả năng cạnh tranh với các sản phẩm tương tự từ OpenAI, Google và Anthropic.
- Công ty hiện có giá trị 300 triệu USD và chỉ với đội ngũ 22 nhân sự. Tuy nhiên, Yi Tay cho rằng quy mô nhỏ gọn lại chính là lợi thế cạnh tranh của Reka, giúp tập trung vào chất lượng sản phẩm và mối quan hệ với khách hàng.
- Yi Tay, đồng sáng lập kiêm nhà khoa học trưởng của Reka, cho rằng ngành AI ở Singapore cần có nhiều người thực sự hiểu và trực tiếp làm AI hơn là chỉ nói suông về lĩnh vực này.
- Ông nhận định việc các quan chức cấp cao trong chính phủ không hiểu rằng trong AI, những cá nhân trực tiếp đóng góp mới là người tạo ra tác động lớn nhất, chứ không phải các nhà quản lý chỉ tham gia các cuộc họp.
- Tay cũng chỉ ra rằng việc Singapore mời các chuyên gia chính sách đến nói về an toàn AI thay vì những người thực sự am hiểu sâu về công nghệ này là một vấn đề cần thay đổi nếu muốn trở thành trung tâm AI toàn cầu.
- Trước khi đồng sáng lập Reka, Tay từng làm việc tại Google Brain trong 3,5 năm và là một trong những người đóng góp quan trọng cho các mô hình PaLM và PaLM 2 - tiền thân của mô hình Gemini.
- Tay cho rằng trí tuệ nhân tạo tổng quát (AGI) và khả năng lập luận của AI vẫn còn nhiều điểm mơ hồ, khó xác định rõ ràng về phạm vi cũng như đánh giá tiến độ phát triển, và cần nhiều nỗ lực hơn nữa từ cộng đồng AI.
📌 Reka, startup 22 người của các cựu kỹ sư Google Brain và DeepMind, đang thách thức các ông lớn trong cuộc đua phát triển AI với các mô hình ngôn ngữ đa phương thức tiên tiến. Đồng sáng lập Yi Tay nhận định Singapore cần nhiều người thực sự làm AI hơn là chỉ nói suông, đồng thời cho rằng AGI và khả năng lập luận của AI vẫn còn nhiều điểm mơ hồ cần làm rõ. Ông cũng chỉ ra tầm quan trọng của việc các cá nhân trực tiếp đóng góp trong việc tạo ra những đột phá trong lĩnh vực AI.
https://www.techinasia.com/singapores-ai-scene-doers-talkers-reka-founder
Singapore’s AI scene needs more doers and less talkers, says Reka founder
As AI fever takes hold everywhere from Silicon Valley to Shenzhen, one early-stage startup – with Singaporean and Indonesian co-founders – is taking the fight directly to the big guns.
Reka, whose large language models (LLMs) can be used for the likes of online customer support and caption generation, emerged out of stealth mode in July 2023. Less than a year later, the company launched multimodal language models that are “competitive” with similar offerings from OpenAI, Google, and Anthropic.
Reka co-founder and chief scientist Yi Tay / Photo credit: Tech in Asia
Valued at US$300 million during its 2023 fundraise, Reka’s newcomer status didn’t stop data cloud giant Snowflake – one of the startup’s customers as well as an investor – from pursuing a rumored US$1 billion acquisition. The talks reportedly ended without a deal, and chief scientist Yi Tay declined to comment when asked by Tech in Asia.
Reka’s quick trajectory is perhaps less surprising once you know the team’s caliber: four out of five co-founders came from Google’s Brain and DeepMind teams.
That includes Tay, who hails from and is based in Singapore. At a meetup for Tech in Asia’s paying subscribers, he talked about the startup’s beginnings, how staying small has been a competitive advantage, as well as the AI trends to look out for – including where Singapore stands in its quest to become a global AI hub.
More coding, less meetings
Reka’s rise has put Tay squarely in the middle of not just AI’s increasing importance globally, but also Singapore’s own ambitions in the field.
The city-state has launched a revised national AI strategy and invested over S$1 billion (US$742 million) in the industry, while inviting the likes of Nvidia and AWS to make AI-related investments there.
But for Tay, Singapore’s path would require a “paradigm shift” – at least when it comes to the government. While not unique to the city-state, Tay finds that senior officials in any government may not understand that, in AI, individual contributors are the ones making the most impact.
In other words, “the people making impact are the people who are on the ground,” he said.
That is the case not just at Reka, but also at the likes of Google DeepMind, OpenAI, and other so-called “frontier labs” – a term referring to companies working on highly capable, general purpose AI models like ChatGPT or Gemini.
In this sense, AI is different from – and “a little bit harder” than – software engineering when it comes to the level of difficulty in making impact and breakthroughs, said Tay. Here, it’s about getting very senior people who are hands-on and have a lot of experience, not “management-style people” that “think they know what they’re doing, but they actually don’t know,” he noted.
“So it’s no longer about having 10 interns, 20 interns, 100 interns” who do all the base work while the senior person “just takes meetings,” he pointed out. “The senior person writes code, everyone writes code … Nobody should not write code.”
Such mindsets may have brought about Singapore’s other hurdles in its quest to be a global hub for the sector. For instance, if the country wants to be an AI hub, “you don’t invite policy people to come and talk about AI safety. You invite people who actually know this stuff, right?” said Tay.
But the “people who can really do it” are not necessarily present in droves in Singapore, he pointed out.
To be fair, that perhaps applies to anywhere in the world outside of innovation hotspots like Palo Alto or Shenzhen.
Beginnings at Google Brain
After getting his Ph.D. from Singapore’s Nanyang Technological University in 2019, Tay joined Google Brain, where he worked for three and a half years. At Google, he was part of a team that did research on transformers, which refers to neural networks that track relationships between sequential data – including text, speech, and even DNA – to glean context and meaning.
He was one of the contributors on Google’s PaLM model and was a co-lead of modeling for PaLM 2, the precursor to Gemini.
“That was during the era where only Google and OpenAI were working on LLMs,” Tay said.
At the time, such models were more or less unknown outside of tech or even AI circles. Then ChatGPT happened, whose public response Tay found to be “perplexing,” as AI scientists had been working with such technologies for some time.
Google, for instance, had launched its Meena chatbot in January 2020, which was followed by LaMDA in 2021. In other words, Google was already working on these technologies for four to five years by the time ChatGPT launched publicly.
The mainstream audience’s response to ChatGPT was also a contrast to the AI community’s – which to Tay made it even more interesting. Tay recalled that OpenAI launched ChatGPT at AI industry conference NeurIPS in 2022, and for practitioners, the product wasn’t that novel compared to what other companies have been developing.
Staying small
Still, the AI wave that ChatGPT brought forth to the mainstream eventually spurred Tay and his co-founders to start Reka, which launched just months after the NeurIPS conference.
At the time, Google was transitioning from PaLM 2 to Gemini, and like any big company, its entire efforts were focused on its LLM. Tay, meanwhile, was itching to experience training AI models outside the walls of big tech.
“I did identify as a scientist and an engineer more than an entrepreneur,” he explained. “So it was the challenge of how about we train these models ourselves? Then we have full control over what we train and what models we build and stuff like that.”
Reka’s achievements have come on the back of US$60 million in venture funding, a comparatively smaller sum to what other frontier labs have raised. It also has a team of just 22 people. According to Tay, however, staying small has been a competitive advantage.
“When people want to work with us, they’re not only getting our models,” he said. “They also care about relationships and [having people] to spend some time thinking about the problem.”
Fundamentally, the firm sees itself as an AI research and product company. In other words, rather than, say, brand name or reach among consumers, Reka is defined partly by its products but also by its team.
Why AGI is still fuzzy
The LLM race aside, AI conversations nowadays often point to artificial general intelligence (AGI), which refers to AI that can emulate human intelligence and, in turn, teach itself. Another is reasoning – Tay called this AGI’s “younger brother” – which refers to AI that can make logical deductions the way a human brain does.
From a technical point of view, Tay finds AGI to be a point of singularity where “AI self-improves without human intervention.” He pointed out that “AGI is a very abstract thing, but I view it more like a technical breakthrough” that can lead to, say, a certain percentage of jobs being replaced by AI.
On both AGI and reasoning, however, Tay finds defining the meaning and scope itself is difficult – especially with multiple AI experts likely having different takes on methodology or evaluation. It’s therefore difficult to make progress or define a timeline – outside of relatively early iterations like grade-school mathematics or booking flights.
“Right now, the process of improving reasoning is getting human annotators to pick out a bunch of data to teach reasoning,” Tay said. “A lot of things still have to come into play.”
• Mô hình Qwen2-72B-Instruct của Alibaba đã vượt qua các đối thủ trong nước Trung Quốc để xếp hạng thứ 3 toàn cầu, chỉ sau GPT-4o của OpenAI và Claude 3.5 Sonnet của Anthropic theo đánh giá của nền tảng SuperClue.
• SuperClue đánh giá các mô hình dựa trên các tiêu chí như tính toán, lập luận logic, lập trình và hiểu văn bản.
• 5 mô hình của Trung Quốc từ Alibaba, Deepseek, SenseTime, Oppo và dự án hợp tác giữa Đại học Thanh Hoa và Zhipu AI đã vượt qua GPT-4 Turbo của OpenAI.
• Khoảng cách giữa các mô hình AI của Trung Quốc và Mỹ đang thu hẹp lại theo đánh giá của SuperClue. Trung Quốc đã có những tiến bộ đáng kể trong việc phát triển các mô hình ngôn ngữ lớn (LLM) trong nửa đầu năm nay.
• Qwen2-72B-Instruct là phiên bản tiên tiến nhất trong họ mô hình Qwen của Alibaba, là phiên bản nguồn mở của Tongyi Qianwen.
• Cách đây vài tuần, cùng mô hình này cũng đứng đầu bảng xếp hạng các mô hình nguồn mở của nền tảng phát triển máy học Hugging Face, với 3 mô hình Qwen lọt vào top 10.
• CEO của Hugging Face đã khen ngợi sự tiến bộ của các công ty AI Trung Quốc, nói rằng "Qwen 72B là vua và các mô hình mở của Trung Quốc đang thống trị tổng thể".
• Tuy nhiên, Hugging Face chỉ đánh giá các mô hình nguồn mở. Một bài kiểm tra riêng của tổ chức nghiên cứu LMSYS xếp Qwen2-72B ở vị trí thứ 20, với các mô hình đóng từ OpenAI, Anthropic và Google chiếm hầu hết các vị trí top 10.
• OpenAI đã khởi động cuộc đua AI vào cuối năm 2022 với việc ra mắt ChatGPT, lúc đó dựa trên mô hình GPT-3.5. Sự phổ biến của sản phẩm này khiến các gã khổng lồ công nghệ như Google và Microsoft phải vội vàng tung ra chatbot của riêng họ.
• Các mô hình tiếp theo của OpenAI vẫn dẫn đầu ngành, mặc dù SuperClue cho biết hầu hết các mô hình đóng của Trung Quốc hiện đã vượt qua khả năng của GPT-3.5-Turbo.
📌 Mô hình Qwen2-72B-Instruct của Alibaba xếp hạng 3 toàn cầu sau OpenAI và Anthropic. 5 mô hình Trung Quốc vượt GPT-4 Turbo. Khoảng cách AI Trung-Mỹ thu hẹp, với Trung Quốc tiến bộ đáng kể trong phát triển LLM nửa đầu năm nay.
https://www.scmp.com/tech/big-tech/article/3270079/alibabas-ai-model-outperforms-chinese-rivals-ranks-just-behind-openai-anthropic
• Theo khảo sát của SAS Institute và Coleman Parkes, 64% công ty Trung Quốc đang thử nghiệm AI tạo sinh nhưng chưa tích hợp hoàn toàn vào hệ thống kinh doanh.
• So sánh với 58% công ty ở Anh và 41% ở Mỹ vẫn đang trong giai đoạn thử nghiệm.
• Mỹ dẫn đầu về tích hợp AI tạo sinh vào quy trình kinh doanh, với 24% công ty đã triển khai hoàn toàn, so với 19% ở Trung Quốc và 11% ở Anh.
• Tổng cộng, 83% tổ chức Trung Quốc đang thử nghiệm hoặc đã triển khai AI tạo sinh, cao hơn nhiều so với Anh (70%), Mỹ (65%) và Australia (63%).
• Mỹ có lợi thế về hệ sinh thái AI trưởng thành hơn, nguồn nhân lực AI chất lượng cao và văn hóa đổi mới sáng tạo.
• Trung Quốc tự tin nhất về việc tuân thủ quy định AI, với gần 1/5 cho biết đã chuẩn bị đầy đủ, so với 14% ở Mỹ.
• Trung Quốc dẫn đầu về số lượng bằng sáng chế AI tạo sinh toàn cầu, với hơn 38.000 bằng sáng chế từ 2014-2023.
• Chính phủ Trung Quốc đã đưa ra nhiều sáng kiến thúc đẩy sử dụng và phát triển cơ sở hạ tầng AI trong nước.
• Khoảng 90% tổ chức áp dụng AI tạo sinh báo cáo cải thiện sự hài lòng và 80% tiết kiệm chi phí vận hành.
• Khoảng 1/10 doanh nghiệp toàn cầu sẽ dành ngân sách cho AI tạo sinh trong năm tài chính tới, dẫn đầu là khu vực Châu Á - Thái Bình Dương với 94%.
• Theo báo cáo của McKinsey năm 2023, AI tạo sinh có thể tạo ra giá trị từ 2,6 nghìn tỷ đến 4,4 nghìn tỷ USD hàng năm trên 63 trường hợp sử dụng kinh doanh.
📌 Trung Quốc dẫn đầu về thử nghiệm AI tạo sinh (83%) nhưng tụt hậu so với Mỹ (24%) trong triển khai toàn diện. Mỹ có lợi thế về hệ sinh thái AI trưởng thành, trong khi Trung Quốc tự tin hơn về tuân thủ quy định và dẫn đầu về bằng sáng chế AI tạo sinh toàn cầu với hơn 38.000 bằng sáng chế.
https://www.cnbc.com/2024/07/10/china-is-global-leader-in-genai-experimentation-but-lags-us-in-implementation.html
• Kyutai, một tổ chức phi lợi nhuận nghiên cứu AI của Pháp, vừa công bố mô hình AI mới có tên Moshi.
• Moshi được xây dựng dựa trên mô hình Helium 7B, tích hợp cả đào tạo văn bản và âm thanh.
• Mô hình này được tối ưu hóa để chạy trên các nền tảng phần cứng khác nhau như CUDA, Metal và CPU.
• Moshi hỗ trợ lượng tử hóa 4-bit và 8-bit, giúp giảm kích thước mô hình và tăng tốc độ suy luận.
• Kyutai tuyên bố Moshi có hiệu suất vượt trội so với GPT-4 của OpenAI trong một số nhiệm vụ nhất định.
• Mô hình này được phát triển với mục tiêu tạo ra một AI mạnh mẽ, có thể truy cập được và miễn phí cho cộng đồng.
• Moshi có khả năng xử lý ngôn ngữ tự nhiên nâng cao, bao gồm dịch thuật, tóm tắt và trả lời câu hỏi.
• Nó cũng có thể tạo ra nội dung sáng tạo như thơ, truyện ngắn và kịch bản.
• Moshi được đào tạo trên một tập dữ liệu đa dạng bao gồm văn bản và âm thanh từ nhiều nguồn khác nhau.
• Kyutai đã sử dụng các kỹ thuật đào tạo tiên tiến như học chuyển giao và tinh chỉnh để cải thiện hiệu suất của mô hình.
• Mô hình này có thể chạy trên các thiết bị phần cứng phổ biến, giúp nó dễ tiếp cận hơn cho các nhà nghiên cứu và nhà phát triển.
• Kyutai đã phát hành mã nguồn và trọng số của Moshi dưới dạng nguồn mở, cho phép cộng đồng đóng góp và cải tiến mô hình.
• Moshi đã được thử nghiệm trên nhiều bộ dữ liệu chuẩn và đạt được kết quả ấn tượng trong các nhiệm vụ như hiểu ngôn ngữ tự nhiên và suy luận.
• Kyutai hy vọng Moshi sẽ thúc đẩy nghiên cứu AI và ứng dụng trong các lĩnh vực như giáo dục, chăm sóc sức khỏe và khoa học dữ liệu.
📌 Moshi, mô hình AI mới từ Kyutai, tích hợp đào tạo văn bản và âm thanh trên nền tảng Helium 7B. Hỗ trợ lượng tử hóa 4-bit và 8-bit, tối ưu cho nhiều nền tảng, Moshi nhắm đến hiệu suất vượt trội GPT-4 trong một số nhiệm vụ. Là nguồn mở và miễn phí, nó hứa hẹn thúc đẩy nghiên cứu AI rộng rãi.
https://analyticsindiamag.com/french-ai-lab-kyutai-releases-openai-gpt-4o-killer-moshi/
• Tác giả thực hiện một cuộc thử nghiệm so sánh khả năng tìm kiếm của 3 chatbot AI: ChatGPT, Google Gemini và Perplexity, với 3 tình huống thực tế khác nhau.
• Tình huống 1 - Lên kế hoạch cho cuối tuần ở Miami:
- ChatGPT đưa ra lịch trình chi tiết từ thứ Sáu đến Chủ nhật, kèm theo các liên kết thông tin. Tuy nhiên, các liên kết chủ yếu đến từ cùng một loại trang web "what's on".
- Google Gemini đề xuất các hoạt động không cụ thể về ngày tháng và gợi ý tham dự Tuần lễ thời trang Miami vào tháng 11, trong khi tác giả muốn đến vào tháng 6.
- Perplexity cung cấp thông tin về các buổi hòa nhạc thực tế diễn ra trong cuối tuần mục tiêu, kèm theo liên kết đến trang bán vé hữu ích.
• Tình huống 2 - Mua laptop giá dưới 400 USD, phù hợp để di chuyển:
- ChatGPT đề xuất Acer Aspire 5 Slim, Lenovo IdeaPad 1 và HP Chromebook.
- Google Gemini cũng gợi ý laptop Acer hoặc Lenovo, kèm theo bình luận hữu ích về các thông số kỹ thuật.
- Perplexity dựa nhiều vào các bài đăng trên Reddit với số lượt upvote thấp, đề xuất Acer Aspire 3 nhưng thiếu đánh giá đáng tin cậy.
• Tình huống 3 - Tìm kiếm tin tức khoa học về phẫu thuật ghép thận khi bệnh nhân tỉnh táo:
- ChatGPT không cập nhật thông tin về ca phẫu thuật ghép thận đầu tiên khi bệnh nhân tỉnh táo tại Northwestern Medicine vào tháng 6/2024.
- Google Gemini và Perplexity đều nhận biết được đột phá y học này, với Perplexity cung cấp thêm liên kết đến thông cáo báo chí gốc và các bài báo uy tín.
• Nhìn chung, tác giả ấn tượng với kết quả của các chatbot AI nhưng vẫn chưa sẵn sàng từ bỏ công cụ tìm kiếm truyền thống.
• Tác giả nhấn mạnh tầm quan trọng của việc cung cấp liên kết đến nguồn thông tin, giúp người dùng có thể kiểm chứng hoặc tiếp tục thực hiện các tác vụ cụ thể.
📌 Cuộc so sánh cho thấy chatbot AI đã có tiến bộ đáng kể trong khả năng tìm kiếm. Perplexity và Google Gemini thể hiện tốt nhất với thông tin cập nhật và nguồn đáng tin cậy. Tuy nhiên, các chatbot vẫn cần cải thiện để có thể thay thế hoàn toàn công cụ tìm kiếm truyền thống.
https://www.tomsguide.com/ai/which-ai-chatbot-is-best-at-search-i-compared-chatgpt-gemini-and-perplexity
• Databricks, công ty phân tích dữ liệu trị giá 43 tỷ USD, đã công bố kế hoạch phát triển hệ thống AI tổng hợp, đe dọa vị thế của các "gã khổng lồ" AI như OpenAI và Anthropic.
• Hệ thống AI tổng hợp của Databricks kết hợp nhiều mô hình AI chuyên biệt, bao gồm mô hình ngôn ngữ lớn (LLM), mô hình nhúng và mô hình đa phương thức.
• Công ty đặt tên cho hệ thống này là Mosaic AI, nhấn mạnh khả năng tích hợp nhiều công nghệ AI khác nhau.
• Mosaic AI được thiết kế để xử lý các tác vụ phức tạp như phân tích dữ liệu, tạo mã và trả lời câu hỏi dựa trên dữ liệu cụ thể của doanh nghiệp.
• Databricks tuyên bố Mosaic AI có thể vượt trội hơn các chatbot AI đơn lẻ trong việc xử lý các tác vụ phức tạp và đa dạng.
• Hệ thống này sử dụng công nghệ tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) để truy cập và tích hợp thông tin từ nhiều nguồn dữ liệu khác nhau.
• Mosaic AI được xây dựng trên nền tảng Delta Lake của Databricks, cho phép tích hợp liền mạch với cơ sở hạ tầng dữ liệu hiện có của doanh nghiệp.
• Databricks nhấn mạnh tầm quan trọng của việc kiểm soát dữ liệu và bảo mật trong Mosaic AI, đáp ứng nhu cầu của các doanh nghiệp lớn.
• Công ty cũng tập trung vào việc tạo ra các mô hình AI chuyên biệt cho từng ngành, như mô hình dành riêng cho lĩnh vực tài chính.
• Databricks đã hợp tác với NVIDIA để phát triển các mô hình AI chuyên biệt, tận dụng sức mạnh tính toán của NVIDIA.
• Mosaic AI được kỳ vọng sẽ mang lại lợi thế cạnh tranh cho Databricks trong thị trường AI đang phát triển nhanh chóng.
• Công ty nhấn mạnh tầm quan trọng của việc tạo ra các hệ thống AI có thể tích hợp với cơ sở hạ tầng dữ liệu hiện có của doanh nghiệp.
• Databricks tin rằng cách tiếp cận tổng hợp này sẽ mang lại giá trị lớn hơn cho khách hàng so với việc sử dụng các mô hình AI độc lập.
• Công ty đang đặt cược vào xu hướng AI từ cốt lõi, trong đó các doanh nghiệp tích hợp AI vào mọi khía cạnh của hoạt động kinh doanh.
• Mosaic AI được kỳ vọng sẽ thúc đẩy cuộc cạnh tranh trong lĩnh vực AI, buộc các công ty như OpenAI và Anthropic phải đổi mới để duy trì vị thế của mình.
📌 Databricks ra mắt hệ thống AI tổng hợp Mosaic AI, kết hợp nhiều mô hình AI chuyên biệt, nhằm cạnh tranh với OpenAI và Anthropic. Hệ thống này tập trung vào tích hợp dữ liệu doanh nghiệp, bảo mật và khả năng xử lý tác vụ phức tạp, hứa hẹn thúc đẩy cuộc đua AI trong tương lai.
https://analyticsindiamag.com/databricks-compound-ai-systems-could-crush-openai-anthropic/
• Bài viết so sánh khả năng của Claude 3.5 Sonnet (Anthropic) và ChatGPT-4o (OpenAI) thông qua 5 bài kiểm tra thực tế.
• Bài kiểm tra đọc chữ viết tay: Cả hai đều hiểu chính xác chữ viết tay của tác giả. ChatGPT chỉ đưa ra haiku theo yêu cầu, trong khi Claude còn giải thích thêm. ChatGPT giành chiến thắng nhờ bài thơ haiku hay hơn.
• Tạo trò chơi bằng Python: Claude tạo ra một trò chơi phòng thủ tháp hoàn chỉnh với nhiều tính năng như thanh máu kẻ địch, cơ chế trả tiền và tính điểm. ChatGPT chỉ tạo ra một hình ảnh động đơn giản không thể chơi được. Claude dễ dàng giành chiến thắng.
• Tạo vector đồ họa: ChatGPT từ chối tạo vector đồ họa ban đầu và cuối cùng tạo ra một hình ảnh lộn xộn. Claude tạo ra một đồ họa vector đẹp mắt đáp ứng yêu cầu. Claude giành chiến thắng.
• Viết truyện hài: Cả hai đều viết được truyện dài khoảng 1.150 từ. Tuy nhiên, truyện của Claude hài hước hơn và đúng chủ đề hơn. Claude giành chiến thắng.
• Tranh luận về quyền pháp nhân cho AI: Cả hai đều đưa ra phân tích chi tiết về lợi ích và rủi ro. Tuy nhiên, Claude đưa ra nhiều lập luận cụ thể và trung thực hơn. Claude giành chiến thắng.
• Kết quả chung: Claude 3.5 Sonnet giành chiến thắng 4/5 bài kiểm tra, chỉ thua trong bài kiểm tra đọc chữ viết tay.
• Tác giả nhận xét ChatGPT-4o vẫn có lợi thế về khả năng thị giác, nhưng OpenAI đang tự giới hạn khả năng của nó. Claude 3.5 Sonnet được đánh giá là mô hình đa phương thức tiên tiến hơn.
• Tác giả cho rằng OpenAI cần mở khóa toàn bộ tiềm năng của GPT-4o và triển khai các khả năng về giọng nói và thị giác thực sự nếu muốn tránh bị tụt hậu lần đầu tiên trong 2 năm qua.
📌 Claude 3.5 Sonnet vượt trội ChatGPT trong 4/5 bài kiểm tra thực tế, cho thấy tiềm năng vượt trội của mô hình đa phương thức mới này. Tuy nhiên, ChatGPT vẫn có lợi thế về thị giác. OpenAI cần mở rộng khả năng của GPT-4o để duy trì vị thế dẫn đầu trong cuộc đua AI.
https://www.tomsguide.com/ai/chatgpt-4o-vs-claude-35-sonnet-which-ai-platform-wins
• GitHub Copilot là LLM tốt nhất cho doanh nghiệp, sử dụng mô hình GPT-4 của OpenAI. Nó cung cấp tiện ích mở rộng tích hợp trực tiếp vào nhiều môi trường phát triển phổ biến và có nhiều gói đăng ký với các mức tính năng khác nhau.
• Llama 3 của Meta là một trong những mô hình chi phí thấp tốt nhất hiện nay. Mặc dù không được đào tạo riêng cho các tác vụ liên quan đến code, nhưng nó vẫn vượt trội hơn CodeLlama trong việc tạo, diễn giải và hiểu code.
• Claude 3 Opus của Anthropic được đánh giá là LLM tốt nhất để tạo code. Nó có thể tạo code cho nhiều ngôn ngữ lập trình khác nhau và cung cấp giải thích chi tiết về code được tạo ra.
• GPT-4 của OpenAI được coi là LLM tốt nhất để gỡ lỗi. Nó có thể xác định vấn đề trong các khối code, đề xuất sửa chữa và giải thích nguyên nhân cũng như cách khắc phục.
• CodeQwen1.5 của Alibaba là trợ lý lập trình tốt nhất cho cá nhân. Đây là mô hình mã nguồn mở, có thể lưu trữ cục bộ và được đào tạo thêm bằng kho lưu trữ code riêng.
• Các LLM này có nhiều ưu điểm như khả năng tạo code, gỡ lỗi, phân tích code và giải quyết vấn đề. Tuy nhiên, chúng cũng có những hạn chế như chi phí cao, yêu cầu phần cứng đắt tiền để chạy cục bộ hoặc không thể tự lưu trữ.
• Khi sử dụng LLM để hỗ trợ lập trình, người dùng cần lưu ý không nên tin tưởng hoàn toàn vào code được tạo ra mà cần kiểm tra kỹ lưỡng để đảm bảo tính chính xác và an toàn.
• Các yếu tố cần cân nhắc khi chọn LLM phù hợp bao gồm: khả năng tạo code, gỡ lỗi, chi phí sử dụng, yêu cầu phần cứng, khả năng tự lưu trữ và tính bảo mật dữ liệu.
• Một số LLM như GitHub Copilot và GPT-4 có thể được đào tạo thêm bằng dữ liệu của tổ chức để cải thiện chất lượng đầu ra và gợi ý phù hợp với ngữ cảnh cụ thể.
• Cửa sổ ngữ cảnh lớn (như 200k token của Claude 3 Opus) rất hữu ích khi làm việc với các khối code lớn và lặp lại qua các gợi ý và thay đổi.
📌 Các LLM hàng đầu cho lập trình như GitHub Copilot, GPT-4, Claude 3 Opus, Llama 3 và CodeQwen1.5 cung cấp nhiều tính năng hỗ trợ code với ưu nhược điểm khác nhau. Người dùng cần cân nhắc kỹ về khả năng, chi phí và yêu cầu bảo mật để lựa chọn mô hình phù hợp nhất.
https://www.techradar.com/computing/artificial-intelligence/best-large-language-models-llms-for-coding
- Leonardo AI vừa ra mắt mô hình mới Leonardo Phoenix với nhiều cải tiến về độ tuân thủ prompt, chất lượng ảnh, khả năng tạo văn bản rõ ràng trong ảnh.
- Bài viết so sánh Leonardo Phoenix với mô hình của Ideogram, một công cụ tạo ảnh AI nổi tiếng khác, về các khía cạnh:
• Diễn giải phong cách nghệ thuật và tuân thủ prompt: Leonardo đạt điểm cao hơn.
• Tính chân thực của ảnh chân dung: Ideogram cho kết quả tốt hơn.
• Tính năng chỉnh sửa ảnh bằng AI, xóa nền, nâng cấp độ phân giải, tạo hoạt họa: chỉ có ở Leonardo.
• Tốc độ tạo ảnh nhanh hơn và hỗ trợ nhiều mô hình đa dạng hơn: ưu thế của Leonardo.
• Giao diện đơn giản, tối ưu cho người dùng cơ bản: điểm mạnh của Ideogram.
- Tác giả kết luận rằng với người dùng chuyên nghiệp và sẵn sàng trả phí, Leonardo là lựa chọn hấp dẫn hơn nhờ bộ tính năng phong phú. Còn với người dùng thông thường chỉ cần tạo ảnh đẹp nhanh chóng, Ideogram phù hợp hơn.
- Mặc dù Ideogram đôi khi cho ảnh chất lượng cao hơn, nhưng nhìn chung Leonardo với mô hình Phoenix mới đã vượt lên dẫn đầu nhờ tính năng vượt trội.
📌 Leonardo Phoenix với các cải tiến về độ tuân thủ prompt, chất lượng ảnh, tính năng chỉnh sửa đã vượt qua Ideogram để trở thành công cụ tạo ảnh AI tốt nhất hiện nay, dù Ideogram vẫn có ưu thế về giao diện tối giản và phù hợp hơn với người dùng cơ bản.
https://decrypt.co/236173/leonardo-ideogram-ai-image-generator-comparison
- Bài báo nghiên cứu gần đây cho biết mô hình ngôn ngữ ChatGLM mới nhất của Đại học Thanh Hoa và Zhipu AI đạt hoặc vượt trội hơn GPT-4 trên nhiều bài kiểm tra và tác vụ.
- Mô hình GLM-4 được tiền huấn luyện trên 10 nghìn tỷ token dữ liệu đa ngôn ngữ và được tinh chỉnh thêm bằng kỹ thuật học có giám sát và học tăng cường từ phản hồi của con người.
- Trên các bài kiểm tra học thuật tiếng Anh chuẩn về kiến thức, toán, lập luận và lập trình, GLM-4 đạt hiệu suất tương đương GPT-4 và các mô hình tiên tiến khác như Gemini 1.5 Pro và Claude 3 Opus. GLM-4 đạt 83,3% trên MMLU (so với 86,4% của GPT-4), 93,3% trên GSM8K (so với 92,0%) và 84,7% trên bộ BIG-Bench khó (so với 83,1%).
- Về khả năng tuân theo hướng dẫn bằng cả tiếng Anh và tiếng Trung, GLM-4 ngang bằng GPT-4 Turbo theo bài đánh giá IFEval. Trên bài đánh giá AlignBench về sự phù hợp ngôn ngữ tiếng Trung trên các lĩnh vực như toán, logic và kiến thức chuyên môn, GLM-4 vượt trội hơn GPT-4 và các mô hình khác.
- Phiên bản GLM-4 All Tools có thể tự động sử dụng các công cụ bên ngoài như trình duyệt web, trình thông dịch Python và mô hình chuyển văn bản thành hình ảnh để hoàn thành các tác vụ phức tạp nhiều bước. Nó ngang bằng và trong một số trường hợp còn vượt trội hơn GPT-4 All Tools về khả năng thu thập thông tin và giải quyết vấn đề toán học.
- Đại học Thanh Hoa đã mở mã nguồn nhiều mô hình GLM, với hơn 10 triệu lượt tải xuống trong năm 2023. Nhóm nghiên cứu dự định tiếp tục cải thiện khả năng của mô hình đồng thời thúc đẩy truy cập mở vào các công nghệ AI ngôn ngữ tiên tiến.
📌 Mô hình ChatGLM của Trung Quốc đã vượt trội GPT-4 trên nhiều bài kiểm tra chuẩn, đặc biệt là về khả năng tuân theo hướng dẫn và sự phù hợp ngôn ngữ tiếng Trung. GLM-4 được tiền huấn luyện trên 10 nghìn tỷ token dữ liệu đa ngôn ngữ và có thể tự động sử dụng các công cụ bên ngoài để hoàn thành tác vụ phức tạp. Đại học Thanh Hoa cam kết thúc đẩy truy cập mở vào công nghệ AI ngôn ngữ tiên tiến.
https://analyticsindiamag.com/chinese-built-chatglm-exceeds-gpt-4-across-several-benchmarks/
• Báo cáo Magic Quadrant của Gartner đánh giá 18 nhà cung cấp nền tảng khoa học dữ liệu và học máy (DSML) hàng đầu tính đến tháng 4/2024, chia thành 4 nhóm: Leaders (Dẫn đầu), Challengers (Thách thức), Visionaries (Có tầm nhìn xa) và Niche Players (Đối tượng ngách).
• Các tiêu chí đánh giá bao gồm khả năng thực thi và tính hoàn thiện của tầm nhìn. Khả năng thực thi xét về sản phẩm/dịch vụ, tính khả thi tổng thể, thực thi bán hàng/định giá, đáp ứng thị trường, thực thi tiếp thị, trải nghiệm khách hàng và hoạt động. Tính hoàn thiện tầm nhìn xét về hiểu biết thị trường, chiến lược tiếp thị, chiến lược bán hàng, chiến lược sản phẩm, mô hình kinh doanh, chiến lược ngành dọc, đổi mới và chiến lược địa lý.
• Các nhà cung cấp được đánh giá bao gồm Alibaba Cloud, Altair, Amazon Web Services (AWS), Anaconda, Cloudera, Databricks, Dataiku, DataRobot, Domino Data Lab, Google, H2O.ai, IBM, KNIME, MathWorks, Microsoft, Posit (trước đây là RStudio) và SAS.
• Nhóm Leaders có chiến lược công ty và nền tảng trưởng thành, tinh chỉnh, có mục tiêu, tích hợp và tận dụng AI tạo sinh để thúc đẩy giá trị kinh doanh cho khách hàng. Họ có khả năng đổi mới nhanh hơn các đối thủ. Bao gồm Altair, Dataiku, DataRobot, Google và Microsoft.
• Nhóm Challengers có năng lực hoạt động để phục vụ nhiều nhu cầu doanh nghiệp trong không gian DSML thông qua nhận diện thương hiệu và bổ sung các sản phẩm. Họ có tiềm năng bổ sung các tính năng sáng tạo và khác biệt. Bao gồm Alibaba Cloud, AWS, IBM và SAS.
• Nhóm Visionaries hiểu thị trường DSML và định hướng tương lai, đưa ra cái nhìn khác biệt về các giải pháp cần cung cấp. Họ cung cấp chức năng dành riêng cho ngành và chứng minh giá trị cho khách hàng. Họ bị hạn chế do thiếu sự công nhận về khả năng DSML đầu cuối. Bao gồm Cloudera, Databricks, Domino Data Lab và H2O.ai.
• Nhóm Niche Players tập trung vào các ngành hoặc nhóm người dùng cụ thể. Họ cung cấp giải pháp đáp ứng nhu cầu của đối tượng mục tiêu nhưng không thể hiện sự đánh giá rộng hơn về xu hướng thị trường và nhu cầu doanh nghiệp. Sức hấp dẫn của họ bị hạn chế ngoài đối tượng cốt lõi. Bao gồm Anaconda, KNIME, MathWorks và Posit.
• Thị trường DSML đang phát triển mạnh với sự xuất hiện của AI tạo sinh. Các nền tảng DSML giúp tăng tốc phát triển của các nhà khoa học dữ liệu và người dùng low-code thông qua hướng dẫn ngôn ngữ tự nhiên và trợ lý AI. Quan trọng hơn, chúng cho phép truy cập, sử dụng và tùy chỉnh các mô hình nền tảng cho nhu cầu doanh nghiệp.
• Các hoạt động DSML trong doanh nghiệp đã phát triển vượt ra ngoài các nhóm DSML cốt lõi tập trung. Nhiều doanh nghiệp cần đối phó với nhiều nền tảng trong khi duy trì các phương pháp hay nhất cho phát triển, giám sát và sử dụng AI có trách nhiệm.
• Tầm quan trọng của các nền tảng DSML như một tài sản chiến lược của doanh nghiệp chưa bao giờ lớn hơn thế. Nhu cầu về các giải pháp AI, bao gồm cả AI tạo sinh, đang ở mức cao nhất, nhưng các nguyên liệu thô của dữ liệu, mô hình, mã và cơ sở hạ tầng chưa bao giờ phức tạp hơn để tập hợp thành các sản phẩm đáng tin cậy, có thể mở rộng.
• Các nhà cung cấp nổi bật trong báo cáo:
- Microsoft: Cung cấp Azure Machine Learning với nhiều mô hình nền tảng, tùy chọn triển khai và định giá linh hoạt. Tích hợp chặt chẽ với hệ sinh thái Azure. Tuy nhiên các dòng sản phẩm riêng lẻ gây khó khăn cho các nhóm khoa học dữ liệu.
- Google: Vertex AI Platform tận dụng các mô hình nền tảng từ nghiên cứu nội bộ và bên thứ ba, cân bằng giữa DSML truyền thống và GenAI. Tuy nhiên khả năng quản trị dữ liệu và AI còn hạn chế so với đối thủ.
- Dataiku: Nền tảng hợp tác giữa các vai trò khác nhau, dẫn dắt sáng kiến LLM Mesh để dân chủ hóa phát triển GenAI. Tuy nhiên cộng đồng người dùng chưa rộng rãi và giá thành cao.
- DataRobot: Trừu tượng hóa việc xây dựng mô hình GenAI và dự đoán, tập trung vào tạo giá trị. Tuy nhiên trải qua nhiều thay đổi lãnh đạo và giá thành cao.
- Altair: RapidMiner giải quyết các điểm đau của doanh nghiệp, tích hợp với các sản phẩm Altair khác cho IoT và HPC. Tuy nhiên mức độ nhận biết của người dùng cuối còn thấp.
📌 Báo cáo Magic Quadrant 2024 của Gartner cho thấy sự trỗi dậy mạnh mẽ của AI tạo sinh đã thúc đẩy sự phát triển của thị trường nền tảng khoa học dữ liệu và học máy. Các nền tảng này không chỉ tăng tốc độ phát triển của các nhà khoa học dữ liệu và người dùng low-code thông qua hướng dẫn bằng ngôn ngữ tự nhiên và trợ lý AI, mà còn cho phép truy cập, sử dụng và tùy chỉnh các mô hình nền tảng đáp ứng nhu cầu doanh nghiệp. 18 nhà cung cấp hàng đầu được đánh giá dựa trên các tiêu chí về khả năng thực thi và tầm nhìn, trong đó Microsoft, Google, Dataiku, DataRobot và Altair nổi bật với những thế mạnh riêng. Tuy nhiên, mỗi giải pháp cũng có những điểm hạn chế nhất định cần cân nhắc. Với nhu cầu về giải pháp AI đang ở mức cao nhất, tầm quan trọng của các nền tảng DSML như một tài sản chiến lược của doanh nghiệp ngày càng được khẳng định.
https://www.gartner.com/doc/reprints?id=1-2HV1ZEFT&ct=240617&st=sb
- Mô hình ngôn ngữ lớn (LLMs):
- LLMs có khả năng tạo văn bản giống con người, hiểu ngữ cảnh và thực hiện nhiều nhiệm vụ ngôn ngữ khác nhau.
- Đặc điểm chính:
- Kích thước và độ phức tạp: Thường có hàng tỷ tham số, ví dụ GPT-3 có 175 tỷ tham số.
- Hiệu suất: Xuất sắc trong các nhiệm vụ từ trả lời câu hỏi đến tạo nội dung sáng tạo.
- Yêu cầu tài nguyên: Đòi hỏi nhiều tài nguyên GPU, chi phí đào tạo có thể lên đến hàng triệu đô la.
- Ứng dụng: Trợ lý ảo, tạo nội dung tự động, phân tích dữ liệu phức tạp.
- Mô hình ngôn ngữ nhỏ (SLMs):
- SLMs là giải pháp thay thế hiệu quả hơn cho LLMs, với ít tham số hơn nhưng vẫn đạt hiệu suất cao.
- Đặc điểm chính:
- Hiệu quả: Thiết kế để hoạt động với ít tham số hơn, ví dụ Phi-3 mini và Llama 3 có khoảng 3-8 tỷ tham số.
- Tinh chỉnh: Thường dựa vào tinh chỉnh cho các nhiệm vụ cụ thể.
- Triển khai: Phù hợp cho triển khai trên thiết bị, như thiết bị di động và điện toán biên.
- Ứng dụng: Xử lý dữ liệu thời gian thực, trợ lý ảo nhẹ, quản lý chuỗi cung ứng.
- Mô hình ngôn ngữ siêu nhỏ (STLMs):
- STLMs nhắm đến hiệu quả và khả năng tiếp cận tối đa, với số lượng tham số tối thiểu.
- Đặc điểm chính:
- Thiết kế tối giản: Sử dụng các kỹ thuật như byte-level tokenization, weight tying.
- Khả năng tiếp cận: Dễ triển khai trên nhiều thiết bị, kể cả trong môi trường hạn chế tài nguyên.
- Bền vững: Giảm thiểu yêu cầu về tính toán và năng lượng.
- Ứng dụng: Thiết bị IoT, ứng dụng di động cơ bản, công cụ giáo dục cho nghiên cứu AI.
Sự khác biệt kỹ thuật:
- Số lượng tham số:
- LLMs: Hàng tỷ tham số, ví dụ GPT-3 có 175 tỷ tham số.
- SLMs: Từ 1 tỷ đến 10 tỷ tham số, ví dụ Llama 3 có khoảng 8 tỷ tham số.
- STLMs: Dưới 500 triệu tham số, ví dụ TinyLlama có khoảng 10 triệu đến 500 triệu tham số.
- Đào tạo và tinh chỉnh:
- LLMs: Yêu cầu tài nguyên tính toán lớn, sử dụng các tập dữ liệu khổng lồ.
- SLMs: Yêu cầu ít tài nguyên hơn, có thể tinh chỉnh hiệu quả cho các nhiệm vụ cụ thể.
- STLMs: Sử dụng các chiến lược đào tạo hiệu quả cao.
- Triển khai:
- LLMs: Chủ yếu triển khai trên các máy chủ mạnh và môi trường đám mây.
- SLMs: Phù hợp cho triển khai trên thiết bị, như thiết bị di động và điện toán biên.
- STLMs: Thiết kế cho môi trường hạn chế, như thiết bị IoT và môi trường tiêu thụ năng lượng thấp.
- Hiệu suất:
- LLMs: Xuất sắc trong nhiều nhiệm vụ nhờ đào tạo rộng rãi và số lượng tham số lớn.
- SLMs: Cung cấp hiệu suất cạnh tranh cho các nhiệm vụ cụ thể thông qua tinh chỉnh.
- STLMs: Tập trung vào hiệu suất chấp nhận được với tài nguyên tối thiểu.
📌 Các mô hình ngôn ngữ lớn (LLMs), nhỏ (SLMs) và siêu nhỏ (STLMs) đều có ưu điểm và nhược điểm riêng, phù hợp với các ứng dụng và môi trường triển khai khác nhau. LLMs mạnh mẽ nhưng đòi hỏi tài nguyên lớn, SLMs cân bằng giữa hiệu suất và tài nguyên, trong khi STLMs tối ưu hóa cho hiệu quả và khả năng tiếp cận.
https://www.marktechpost.com/2024/06/05/llms-vs-slms-vs-stlms-a-comprehensive-analysis/
- Bài báo đã thử nghiệm 5 chatbot AI hàng đầu hiện nay là ChatGPT, Claude, Copilot, Gemini và Perplexity trên nhiều lĩnh vực khác nhau để đánh giá khả năng của chúng.
- Về y tế, ChatGPT đứng đầu với các câu trả lời chính xác, đầy đủ và có tính đến các yếu tố khác nhau. Gemini xếp thứ 2 với những lời khuyên thiết thực.
- Trong lĩnh vực tài chính, Gemini dẫn đầu với lời khuyên rõ ràng, đầy đủ và thực tế nhất. Claude và Perplexity theo sát ở vị trí thứ 2 và 3.
- Về nấu ăn, ChatGPT tỏ ra sáng tạo nhất khi đưa ra thực đơn phù hợp với nguyên liệu cho trước. Gemini cũng ấn tượng với công thức bánh không chứa các thành phần dị ứng.
- Claude đứng đầu trong viết văn công sở với giọng điệu phù hợp. Perplexity và Gemini sát nút ở vị trí á quân.
- Bất ngờ là Copilot lại vượt trội trong viết văn sáng tạo với giọng điệu hài hước, dí dỏm. Claude đứng thứ 2 ở hạng mục này.
- Perplexity tỏ ra xuất sắc nhất trong việc tóm tắt nội dung, kể cả tóm tắt phụ đề video. Copilot xếp thứ 2 với định dạng tóm tắt dễ đọc, dễ nắm bắt.
- Về sự kiện thời sự, Perplexity tiếp tục dẫn đầu nhờ lập luận cân bằng và dẫn nguồn tin đáng tin cậy. ChatGPT đứng thứ 2, đặc biệt sau bản nâng cấp mới.
- Cả Perplexity, ChatGPT và Gemini đều thể hiện khả năng lập trình tốt. Tuy nhiên, ChatGPT là chatbot có tốc độ phản hồi nhanh nhất, chỉ mất 5.8 giây.
📌 Nhìn chung, mỗi chatbot đều có những thế mạnh riêng đáng để người dùng khám phá. Các chatbot gần như không mắc phải sai sót nghiêm trọng hay đưa ra câu trả lời lan man, thiếu chính xác. Điều bất ngờ nhất là Perplexity, cái tên ít được biết đến, lại vượt lên dẫn đầu tổng thể, vượt qua cả ChatGPT đình đám. Tốc độ phát triển chóng mặt của AI hứa hẹn cuộc đua giữa các chatbot sẽ còn nhiều biến động thú vị trong tương lai gần. Các ông lớn công nghệ như Google, Microsoft cũng đang gấp rút nâng cấp chatbot của mình. Có lẽ chỉ đến khi các chatbot tiến hóa lên mức "đa phương thức", có khả năng nghe, nhìn, đọc như con người, cuộc đua mới thực sự ngã ngũ.
Citations:
[1] https://www.wsj.com/tech/personal-tech/ai-chatbots-chatgpt-gemini-copilot-perplexity-claude-f9e40d26
- **GPT-4o API**: Mô hình mới nhất từ OpenAI, cung cấp cải tiến đáng kể về chi phí, tốc độ và khả năng truy cập so với các phiên bản trước.
- **GPT-4 Turbo**: Phiên bản trước của GPT-4, được thiết kế cho hiệu suất nhanh và chức năng mạnh mẽ, đã được sử dụng rộng rãi cho các ứng dụng yêu cầu xử lý ngôn ngữ chất lượng cao.
- **Chi phí**:
- **GPT-4o API**: Giảm 50% chi phí so với GPT-4 Turbo, đặc biệt có lợi cho các dự án dài hạn và ứng dụng cần mở rộng.
- **GPT-4 Turbo**: Chi phí cao hơn, không phù hợp cho các ứng dụng cần tiết kiệm chi phí.
- **Tốc độ phản hồi**:
- **GPT-4o API**: Cung cấp tốc độ phản hồi nhanh gấp đôi so với GPT-4 Turbo, quan trọng cho các ứng dụng thời gian thực và tương tác người dùng.
- **GPT-4 Turbo**: Mặc dù nhanh, nhưng không thể so sánh với tốc độ giảm độ trễ của GPT-4o.
- **Giới hạn tỷ lệ**:
- **GPT-4o API**: Cung cấp giới hạn tỷ lệ cao gấp năm lần so với GPT-4 Turbo, cho phép nhiều yêu cầu hơn trong một khoảng thời gian nhất định.
- **GPT-4 Turbo**: Giới hạn tỷ lệ thấp hơn, có thể là nút thắt cổ chai cho các ứng dụng cần mở rộng cao.
- **Trường hợp sử dụng**:
- **GPT-4o API**: Phù hợp nhất cho các ứng dụng cần thông lượng cao và hiệu quả chi phí, như chatbot thời gian thực, xử lý dữ liệu quy mô lớn và các ứng dụng có khối lượng yêu cầu lớn.
- **GPT-4 Turbo**: Phù hợp cho các ứng dụng yêu cầu xử lý ngôn ngữ chất lượng cao nhưng không cần tốc độ phản hồi nhanh hoặc giới hạn tỷ lệ cao.
📌 GPT-4o API mang lại lợi ích vượt trội với chi phí giảm 50%, tốc độ phản hồi nhanh gấp đôi và giới hạn tỷ lệ cao gấp năm lần so với GPT-4 Turbo, làm cho nó trở thành lựa chọn tối ưu cho các ứng dụng AI cần mở rộng và hiệu quả chi phí.
Citations:
[1] https://www.geeky-gadgets.com/gpt-4o-api-vs-gpt-4-turbo/
- Udio và Suno là hai công cụ tạo nhạc AI hàng đầu, cho phép tạo ra các bản nhạc chỉ bằng lệnh văn bản đơn giản.
- Để sử dụng, người dùng chỉ cần nhập lệnh văn bản kèm thể loại, nhạc cụ và các chi tiết liên quan, sau đó nhấn nút "Tạo". Kết quả là các đoạn nhạc ngắn được tạo ra.
- Tác giả đã thử nghiệm 7 lệnh khác nhau, từ đơn giản đến phức tạp, trên cả Udio và Suno để so sánh.
- Udio có tính năng mạnh mẽ là cho phép duyệt catalog để sao chép thông tin lệnh và thể loại. Tác giả đã thêm các chi tiết lệnh như du dương, thơ mộng, hip hop trừu tượng,...
- Suno có một số hạn chế như không thể kéo dài bản nhạc quá 1 phút 03 giây, giao diện và quá trình ghép đoạn nhạc gây cản trở trải nghiệm sáng tạo.
- Suno cũng tạo ra các đoạn tạm dừng kỳ lạ dài 7 giây ở giữa bài và thêm giọng hát đơn điệu làm giảm chất lượng bản nhạc.
- Đáng ngạc nhiên là AI thậm chí có thể tạo ra các đoạn hài kịch tương đối ổn. Suno đã thử tạo hài kịch.
📌 Udio và Suno là hai công cụ tạo nhạc AI hàng đầu với khả năng tạo bản nhạc từ lệnh văn bản đơn giản. Qua 7 lệnh thử nghiệm, Udio cho thấy ưu thế hơn với tính năng mạnh mẽ và chất lượng bản nhạc tốt hơn. Trong khi đó, Suno còn một số hạn chế về thời lượng, giao diện và chất lượng âm thanh cần cải thiện.
Citations:
[1] https://www.tomsguide.com/ai/suno-vs-udio-7-prompts-to-find-the-best-ai-music-generator
- Llama 3 có 2 phiên bản với 8B và 70B tham số, tuy nhỏ hơn GPT-4 nhưng vẫn thể hiện khả năng lý luận và tuân thủ chỉ dẫn người dùng tốt.
- Llama 3 có độ dài ngữ cảnh 8K token, thể hiện khả năng truy xuất thông tin hiệu quả.
- Trong bài kiểm tra Magic Elevator, Llama 3 vượt trội hơn GPT-4 với câu trả lời logic.
- Cả Llama 3 và GPT-4 đều trả lời đúng các câu hỏi lý luận cổ điển mà không cần đi sâu vào toán học.
- Llama 3 thể hiện khả năng truy xuất ấn tượng, nhanh chóng xác định thông tin trong phạm vi ngữ cảnh.
- Trong bài kiểm tra MMLU, Llama 3 vượt trội hơn các mô hình tương tự như Gemma, Mistral và cả Claude trong một số điều kiện nhất định.
- Llama 3 có khả năng hiểu các chỉ dẫn và tình huống phức tạp tốt hơn đối thủ.
- GPT-4 vẫn là mô hình dẫn đầu về khả năng hiểu và tạo ngôn ngữ toàn diện, thường được dùng làm chuẩn so sánh.
- Claude tập trung vào AI đạo đức, giải quyết các vấn đề xã hội quan trọng.
- Gemini tận dụng cơ sở hạ tầng của Google để thống trị thị trường doanh nghiệp.
📌So sánh llama 3 với các mô hình ai đỉnh cao gpt 4, claude và gemini. Mỗi mô hình AI thể hiện những điểm mạnh riêng, với Llama 3 nổi bật về các cải tiến gần đây và khả năng đa phương thức được kỳ vọng. GPT 4 tiếp tục xuất sắc với tính đa năng và khả năng AI tổng quát cao. Trong khi đó, Claude và Gemini hướng tới AI đạo đức và thị trường doanh nghiệp.
Citations:
[1] https://www.marktechpost.com/2024/04/23/comparative-analysis-of-llama-3-with-ai-models-like-gpt-4-claude-and-gemini/
- Trong đánh giá mới nhất của Đại học Tsinghua, Ernie Bot 4.0 của Baidu và GLM-4 của Zhipu AI đã trở thành các mô hình ngôn ngữ lớn hàng đầu tại Trung Quốc.
- Đánh giá này được thực hiện bởi Trung tâm Nghiên cứu Mô hình Cơ bản của Tsinghua phối hợp với Phòng thí nghiệm Zhongguancun do nhà nước hỗ trợ.
- Mặc dù các mô hình này xuất sắc trong các nhiệm vụ ngôn ngữ văn bản Trung Quốc, chúng vẫn tụt hậu so với các đối thủ nước ngoài về năng lực tổng thể.
- Báo cáo đánh giá SuperBench đã xem xét 14 mô hình ngôn ngữ lớn đại diện, nhận định các mô hình như GPT-4 của OpenAI và Claude-3 của Anthropic là những mô hình hàng đầu về các khả năng như hiểu ngữ nghĩa, khả năng lập trình và phù hợp với mệnh lệnh của con người.
- Các nhà nghiên cứu đã ghi nhận sự chênh lệch đáng kể trong khả năng viết mã và hoạt động trong môi trường thực tế giữa các mô hình trong nước và các mô hình hàng đầu thế giới.
- Mục tiêu của báo cáo là thiết lập các tiêu chí đánh giá 'khách quan và khoa học' để đánh giá số lượng ngày càng tăng của các mô hình ngôn ngữ lớn đã xuất hiện trên thị trường gần đây.
- Các công ty công nghệ lớn và các startup Trung Quốc đã tập trung cải thiện mạnh mẽ các mô hình ngôn ngữ lớn của họ kể từ khi OpenAI ra mắt các công cụ AI tạo sinh tiên phong như ChatGPT và dịch vụ chuyển đổi văn bản thành video Sora.
- Báo cáo của Tsinghua chỉ ra rằng Ernie Bot 4.0 và GLM-4 đã đạt được tiến bộ đáng kể trong việc thu hẹp khoảng cách với các mô hình hàng đầu thế giới về hiệu suất tổng thể.
- Trong hạng mục nhiệm vụ ngôn ngữ văn bản Trung Quốc, Kimi chatbot của Moonshot AI, Tongyi Qianwen 2.1 của Alibaba, GLM-4 và Ernie Bot 4.0 đều nằm trong số những người dẫn đầu, với GPT-4 vẫn dẫn đầu trong lý luận ngôn ngữ văn bản Trung Quốc.
- Moonshot AI và Zhipu AI, cùng với Baichuan và MiniMax, được công nhận là 'bốn con hổ AI mới của Trung Quốc' vì những đóng góp đáng kể của họ cho ngành AI tạo sinh của đất nước.
📌 Baidu và Zhipu AI là những người dẫn đầu trong lĩnh vực mô hình ngôn ngữ lớn tại Trung Quốc, nhưng vẫn còn tụt hậu so với các mô hình quốc tế như GPT-4 và Claude-3 trong các khả năng như hiểu ngữ nghĩa và lập trình. Ernie Bot 4.0 và GLM-4 đã tiến bộ đáng kể, nhưng vẫn cần nỗ lực nhiều hơn để đạt được tiêu chuẩn toàn cầu.
Citations:
[1] https://www.scmp.com/tech/tech-trends/article/3259904/baidu-and-zhipu-ais-large-language-models-top-chinese-generative-ai-rankings-openai-anthropic-remain
- Các mô hình ngôn ngữ lớn (LLM) như GPT-3 đang thu hút sự chú ý đáng kể, nhưng chi phí sử dụng chúng qua các dịch vụ như OpenAI khá đắt đỏ. Một số tổ chức đang cân nhắc tự lưu trữ LLM.
- Tự lưu trữ LLM đòi hỏi đầu tư đáng kể vào phần cứng, với chi phí dao động từ 100.000 đến hàng triệu USD. Chi phí điện năng hàng tháng cũng rất lớn, từ 10.000 đến 100.000 USD.
- Ngoài ra, việc tự lưu trữ còn đòi hỏi nhân sự kỹ thuật cao để triển khai và duy trì hệ thống, cũng như xử lý các vấn đề bảo mật và quyền riêng tư.
- Ngược lại, sử dụng dịch vụ của OpenAI chỉ tính phí dựa trên mức sử dụng thực tế, với mức giá khoảng 0,0004 USD cho 1.000 token (khoảng 750 từ). Điều này giúp tiết kiệm chi phí đầu tư ban đầu và vận hành.
- Tuy nhiên, khi sử dụng với khối lượng lớn, chi phí của OpenAI có thể vượt quá chi phí tự lưu trữ. Ví dụ, với 1 triệu yêu cầu mỗi tháng, chi phí của OpenAI là 400.000 USD, cao hơn nhiều so với chi phí tự lưu trữ.
- Các tổ chức cần cân nhắc kỹ lưỡng giữa chi phí, khả năng kiểm soát, tính bảo mật và linh hoạt khi quyết định giữa tự lưu trữ LLM hoặc sử dụng dịch vụ của OpenAI.
📌 So sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn. Tự lưu trữ các mô hình ngôn ngữ lớn như GPT-3 đòi hỏi chi phí đầu tư phần cứng từ 100.000 đến hàng triệu USD, cùng chi phí điện năng và nhân sự cao. OpenAI tính phí thấp hơn với mức sử dụng vừa phải, nhưng có thể đắt hơn khi sử dụng với quy mô lớn, lên tới 400.000 USD/tháng cho 1 triệu yêu cầu.
Citations:
[1] https://venturebeat.com/ai/openai-or-diy-unveiling-the-true-cost-of-self-hosting-llms/
- Claude 3 Opus và ChatGPT-4 là hai mô hình AI hàng đầu có thể cải thiện đáng kể tốc độ và hiệu quả công việc nghiên cứu.
- Claude 3 Opus nổi bật với khả năng tạo dàn ý tổng quan tài liệu chi tiết, giúp các nhà nghiên cứu tổng hợp nhanh một lượng lớn thông tin.
- ChatGPT-4 được đánh giá cao về khả năng tạo ra các câu trả lời chi tiết, bao quát nhiều chủ đề một cách toàn diện.
- Cả hai mô hình đều thể hiện tốt trong việc tạo nội dung học thuật và trả lời các câu hỏi về các lĩnh vực, công nghệ chuyên biệt.
- ChatGPT-4 vượt trội hơn trong việc xử lý và phân tích hình ảnh phức tạp.
- ChatGPT-4 cũng cung cấp các đề xuất bài báo cập nhật hơn so với Claude 3 Opus.
- Các nhà nghiên cứu nên cân nhắc kỹ nhu cầu và ưu tiên cụ thể của mình khi lựa chọn giữa Claude 3 Opus và ChatGPT-4.
📌 Claude 3 Opus và ChatGPT-4 đều thể hiện nhiều ưu điểm vượt trội trong hỗ trợ nghiên cứu học thuật. Claude 3 Opus mạnh về tạo dàn ý tổng quan tài liệu chi tiết, trong khi ChatGPT-4 có khả năng phân tích hình ảnh tiên tiến và đề xuất bài báo cập nhật hơn. Việc lựa chọn mô hình phù hợp phụ thuộc vào nhu cầu và ưu tiên nghiên cứu cụ thể của từng cá nhân.
Citations:
[1] https://www.geeky-gadgets.com/claude-3-opus-vs-chatgpt-4-2024/
- Phiên bản cập nhật mới nhất của GPT-4 Turbo (gpt-4-turbo-2024-04-09) đã giành lại vị trí số 1 trong bảng xếp hạng Chatbot Arena của LMSYS kể từ ngày 9/4/2024.
- GPT-4 Turbo vượt trội hơn các mô hình ngôn ngữ lớn khác về khả năng lập trình và lập luận, dựa trên hơn 8.000 lượt bình chọn của người dùng từ nhiều lĩnh vực.
- Người dùng có thể so sánh đồng thời 2 mô hình AI trên Chatbot Arena mà không biết danh tính của chúng, và đánh giá câu trả lời để xác định mô hình chiến thắng.
- Kết quả được sử dụng để xếp hạng 82 mô hình ngôn ngữ lớn trên bảng xếp hạng, bao gồm Gemini Pro, dòng Claude 3 và Mistral-Large-2402.
- Tính đến ngày 13/4/2024, GPT-4 Turbo dẫn đầu hạng mục tổng thể, lập trình và tiếng Anh, trong khi Claude 3 Opus xếp thứ 2 và phiên bản cũ hơn gpt-4-1106-preview xếp thứ 3.
- Hiệu suất cải thiện của gpt-4-turbo-2024-04-09 là nhờ khả năng lập trình, toán học, lập luận logic và viết lách vượt trội, được chứng minh qua các bài kiểm tra đánh giá trình độ mô hình AI.
📌 GPT-4 Turbo đã giành lại ngôi vị số 1 trong bảng xếp hạng Chatbot Arena, vượt qua Claude 3 Opus nhờ khả năng lập trình, toán học và lập luận logic vượt trội. Tính đến ngày 13/4/2024, mô hình mới gpt-4-turbo-2024-04-09 dẫn đầu hạng mục tổng thể, lập trình và tiếng Anh, cho thấy sự cải tiến đáng kể so với phiên bản trước.
Citations:
[1] https://www.zdnet.com/article/gpt-4-turbo-reclaims-best-ai-model-crown-from-anthropics-claude-3/
- xAI, công ty AI của Elon Musk giới thiệu Grok-1.5V, mô hình đa phương thức thế hệ đầu tiên có khả năng xử lý nhiều loại thông tin hình ảnh như tài liệu, sơ đồ, biểu đồ, ảnh chụp màn hình và ảnh.
- Grok-1.5V sẽ sớm có mặt cho người dùng thử nghiệm sớm và người dùng Grok hiện tại.
- Tính năng nổi bật của Grok-1.5V là khả năng hiểu các khái niệm không gian trong thế giới thực, vượt trội hơn các mô hình khác trong bài kiểm tra RealWorldQA.
- So sánh với các mô hình hàng đầu như GPT-4V, Claude 3 Sonnet, Claude 3 Opus và Gemini Pro 1.5, Grok-1.5V thể hiện lợi thế cạnh tranh trên nhiều bài kiểm tra.
- Grok-1.5V có thể chuyển đổi thông tin hình ảnh phức tạp thành mã lập trình, ví dụ như chuyển lưu đồ mô tả trò chơi đoán số thành mã Python.
- Các nhà phát triển kỳ vọng Grok-1.5V sẽ có cải tiến đáng kể về khả năng đa phương thức trên hình ảnh, âm thanh, video, hướng tới xây dựng AI tổng quát có lợi (AGI).
- Trước đó, xAI đã giới thiệu Grok-1.5 với khả năng lập luận nâng cao, độ dài ngữ cảnh 128.000 token và đánh bại Mistral Large trên nhiều bài kiểm tra như MMLU, GSM8K, HumanEval.
📌 Grok-1.5V của xAI thể hiện khả năng xử lý thông tin hình ảnh vượt trội, đánh bại GPT-4V và các mô hình hàng đầu khác trên nhiều bài kiểm tra. Với tiềm năng cải tiến đa phương thức, Grok-1.5V hứa hẹn là bước tiến quan trọng hướng tới việc xây dựng AGI hiểu và tương tác toàn diện với thế giới.
Citations:
[1] https://analyticsindiamag.com/elon-musks-xai-unveils-grok-1-5-vision-beats-openais-gpt-4v/
- Perplexity AI là một nền tảng đột phá, định vị mình như một công cụ tìm kiếm trò chuyện thay thế cho các công cụ truyền thống như Google. Nó có khả năng hiểu các truy vấn ngôn ngữ tự nhiên.
- Khác với các chatbot hiện đại khác như ChatGPT, Perplexity không dựa vào dữ liệu huấn luyện để trả lời. Thay vào đó, nó tham khảo nhiều nguồn trực tuyến để tạo ra câu trả lời chính xác và nhất quán.
- Bing Chat của Microsoft và Gemini của Google là những đơn vị tiên phong trong cách tiếp cận này, sử dụng các nguồn bên ngoài để nâng cao khả năng của các mô hình ngôn ngữ lớn.
- Perplexity nhắm đến việc thay thế các công cụ tìm kiếm truyền thống bằng cách cung cấp câu trả lời trực tiếp kèm trích dẫn nguồn. Nó mang lại trải nghiệm trò chuyện tập trung hơn so với các nền tảng AI khác.
- Trong quá trình thử nghiệm, phản hồi của Perplexity tương tự như tính năng tóm tắt do AI hỗ trợ Search Generative Experience của Google, hiện có ở một số quốc gia.
- Perplexity là một công cụ tìm kiếm AI trước hết. Mặc dù có chế độ "Viết", nó không tập trung vào việc tạo văn bản sáng tạo như ChatGPT.
- Perplexity phân tích nhiều nguồn trực tuyến cho mỗi tin nhắn, mang lại câu trả lời toàn diện.
- Perplexity là sản phẩm của một startup AI nhỏ ở San Francisco, do CEO Aravind Srinivas và 3 đồng sáng lập khác dẫn đầu.
- Công ty đã thu hút hơn 73 triệu USD tài trợ từ các ông lớn công nghệ như IVP, Nvidia và Jeff Bezos - người sáng lập Amazon.
📌 Perplexity AI nổi lên như một đối thủ đáng gờm của ChatGPT với cách tiếp cận độc đáo - tích hợp dữ liệu từ nhiều nguồn trực tuyến để tạo ra câu trả lời toàn diện. Perplexity AI hứa hẹn sẽ cách mạng hóa trải nghiệm tìm kiếm, mang lại kết quả tập trung và chính xác hơn.
Citations:
[1] https://www.androidauthority.com/perplexity-ai-vs-chatgpt-3433152/
- Tác giả đã sử dụng ChatGPT Plus, Gemini Advanced và Microsoft Copilot Pro trong vài tháng qua. Mỗi nền tảng có ưu điểm riêng, lựa chọn tốt nhất tùy thuộc vào nhu cầu cụ thể của người dùng.
- ChatGPT của OpenAI là một trong những đơn vị đầu tiên tham gia cuộc đua AI với chatbot của mình. Google và Microsoft nhanh chóng theo sau với các sản phẩm của riêng họ.
- Gemini tạo ra nội dung tốt nhất ban đầu, Copilot nhanh hơn và cung cấp nhiều hơn ở tầng miễn phí. ChatGPT Plus với lịch sử lâu đời hơn có nhiều lợi thế.
- ChatGPT Plus có xu hướng là đơn vị đầu tiên giới thiệu các tính năng mới nhờ lịch sử lâu đời trên thị trường AI.
- ChatGPT sử dụng dữ liệu huấn luyện của riêng mình, mang lại lợi thế so với các đối thủ cạnh tranh như Copilot và Gemini.
- ChatGPT Plus cung cấp quyền truy cập vào cả ChatGPT và DALL-E, mang lại cho người đăng ký lợi thế trong việc tạo ảnh mà các nền tảng khác không có.
- ChatGPT Plus từ chối sao chép phong cách của nghệ sĩ, trở thành lựa chọn đạo đức hơn cho những người quan tâm đến việc AI sử dụng nội dung mà không được phép.
- ChatGPT Plus tự động xóa dữ liệu trò chuyện sau 30 ngày, đảm bảo quyền riêng tư của người dùng.
- ChatGPT cung cấp nhiều phiên bản GPT được điều chỉnh cho các tác vụ cụ thể, mang lại hiệu suất tốt hơn.
- Kỹ năng viết của ChatGPT tốt hơn các đối thủ.
📌 ChatGPT Plus vượt trội hơn Gemini Advanced và Copilot Pro nhờ ra mắt tính năng mới sớm, dữ liệu huấn luyện riêng, khả năng tạo ảnh, đạo đức, bảo mật dữ liệu người dùng, tích hợp đa dạng, nhiều phiên bản GPT chuyên biệt và kỹ năng viết xuất sắc.
Citations:
[1] https://www.pocket-lint.com/chatgpt-plus-is-better-than-gemini-advanced-copilot-pro/
- Google ra mắt Gemini Code Assist và CodeGemma, hai công cụ AI hỗ trợ lập trình dựa trên mô hình Gemini và Gemma.
- Gemini Code Assist có thể viết mã trong 22 ngôn ngữ lập trình, bao gồm C, C++, MatLab, Ruby, Rust, Javascript, Python và SQL. Nó cũng có thể trả lời các câu hỏi về Google Cloud, gỡ lỗi mã hiện có hoặc giải thích chi tiết mã của bạn.
- CodeGemma có ba phiên bản: hai phiên bản 7B để tạo mã và hoàn thành dòng mã hiện có, trò chuyện về mã và làm theo hướng dẫn; một phiên bản 2B nhỏ hơn có thể tải xuống cục bộ vào máy tính và hoàn thành yêu cầu mã nhanh chóng.
- CodeGemma được đào tạo trên 500 tỷ token dữ liệu bao gồm "tài liệu web, toán học và mã". Google gợi ý rằng CodeGemma có thể giúp các kỹ sư giảm lượng mã "boilerplate" chung mà họ phải viết.
- Gemini Code Assist và CodeGemma của Google là bổ sung mới nhất cho số lượng ngày càng tăng các công cụ lập trình AI mà các nhà phát triển có thể sử dụng để hoàn thành dự án, cạnh tranh trực tiếp với Github Copilot của Microsoft.
- Ngoài ra còn có Devin, một "kỹ sư phần mềm AI" hứa hẹn hoàn thành toàn bộ các dự án kỹ thuật với rất ít hoặc không cần hướng dẫn, sử dụng Chat GPT-4 Turbo của OpenAI.
📌 Google giới thiệu Gemini Code Assist và CodeGemma, hai công cụ lập trình AI mạnh mẽ dựa trên Gemini và Gemma, hỗ trợ hơn 22 ngôn ngữ. Đây là đối thủ cạnh tranh trực tiếp với Github Copilot của Microsoft. Bên cạnh đó, Devin - kỹ sư phần mềm AI của Cognition Labs sử dụng GPT-4 Turbo cũng hứa hẹn tự động hoàn thành dự án với ít hướng dẫn. Sự bùng nổ của AI có thể dẫn đến giảm việc làm kỹ sư phần mềm, nhưng cũng tạo ra nhiều việc làm mới liên quan đến mô hình AI.
https://www.pcmag.com/news/google-launches-gemini-coding-ai-could-rival-microsoft-github-copilot
- Chatbot Kimi của Moonshot AI, một startup 12 tháng tuổi, đạt 12.6 triệu lượt xem website và ứng dụng trong tháng 3, tăng hơn 4 lần so với tháng trước.
- Kimi vượt qua Tongyi Qianwen của Alibaba, trở thành chatbot lớn thứ 2 Trung Quốc, chỉ sau Ernie Bot của Baidu với gần 15 triệu lượt xem, tăng 48%.
- Kimi nổi tiếng xử lý các tình huống cụ thể như phân tích văn bản dài, góp phần vào sự phổ biến.
- Tuy nhiên, các ông lớn AI tạo sinh Trung Quốc vẫn tụt xa so với thế giới. ChatGPT của OpenAI đạt 1.86 tỷ lượt xem trong tháng 3, tăng 9%, vẫn là ứng dụng AI tạo sinh phổ biến nhất toàn cầu.
- Lượng truy cập tăng đột biến khiến Kimi gặp sự cố trong ít nhất 2 ngày tháng trước, do công bố đột phá công nghệ xử lý được 2 triệu ký tự tiếng Trung, tăng từ 200,000 ký tự trước đó.
- Baidu và Alibaba cũng theo sau. Baidu sẽ cập nhật Ernie Bot xử lý được 5 triệu ký tự tiếng Trung trong tháng này. Alibaba tuyên bố Tongyi Qianwen đã xử lý được khoảng 10 triệu ký tự tiếng Trung từ tháng 3.
- Bên cạnh phát triển mô hình ngôn ngữ lớn nội bộ, Alibaba còn đầu tư vào các đối thủ mới nổi như Moonshot AI và MiniMax.
📌 Moonshot AI đang bứt phá trong cuộc đua AI tạo sinh tại Trung Quốc với chatbot Kimi, vượt qua Tongyi Qianwen của Alibaba và bám đuổi Ernie Bot của Baidu. Tuy nhiên, khoảng cách với các ông lớn thế giới như OpenAI vẫn còn xa. Alibaba và Baidu đang đẩy mạnh cập nhật công nghệ xử lý văn bản dài để cạnh tranh.
https://www.scmp.com/tech/big-tech/article/3258367/alibaba-backed-moonshot-ai-narrows-gap-baidus-ernie-bot-chinas-generative-ai-rivalry-heats
- Empower là một startup được hậu thuẫn bởi Y Combinator, đang phát triển nền tảng Empower-Functions với khả năng gọi hàm tương đương GPT-4.
- Empower-Functions tập trung vào tốc độ và chi phí, với thời gian phản hồi nhanh gấp 3 lần và chi phí rẻ hơn 10 lần so với đối thủ cạnh tranh.
- Nền tảng này được thiết kế tập trung vào các trường hợp sử dụng thực tế, khác biệt so với các mô hình chung chung.
- Người dùng có thể dùng thử mô hình qua demo trực tiếp trước khi cam kết sử dụng. Empower cũng cung cấp API mạnh mẽ để tích hợp mô hình vào ứng dụng sẵn có.
- Empower-Functions cung cấp hướng dẫn khởi động nhanh cho nhà phát triển, kết hợp công cụ thân thiện, tốc độ và chi phí hợp lý.
- Cách tiếp cận độc đáo của Empower-Functions giải quyết các rào cản chính ngăn cản việc áp dụng LLM rộng rãi như chi phí bảo trì cao, sự bất tiện và thiếu quyền kiểm soát.
- Empower cho phép triển khai serverless, người dùng chỉ trả tiền cho tài nguyên sử dụng. Các mô hình nền tảng được xây dựng sẵn theo nhiệm vụ cụ thể. Người dùng có thể tùy chỉnh mô hình theo nhu cầu riêng.
📌 Empower-Functions mang đến giải pháp cân bằng giữa hiệu năng cao và chi phí hợp lý cho việc áp dụng LLM, với tốc độ nhanh gấp 3 lần và giá rẻ gấp 10 lần GPT-4. Cách tiếp cận độc đáo tập trung vào trường hợp sử dụng thực tế, triển khai serverless linh hoạt và công cụ thân thiện cho phép nhiều doanh nghiệp và lập trình viên tiếp cận sức mạnh của AI.
https://www.marktechpost.com/2024/04/06/meet-empower-an-ai-research-startup-unleashing-gpt-4-level-function-call-capabilities-at-3x-the-speed-and-10-times-lower-cost/
- Chatbot AI Grok do công ty khởi nghiệp xAI của tỷ phú công nghệ Elon Musk tạo ra đã vượt qua đối thủ ChatGPT về khả năng tiếp cận người dùng trên toàn thế giới.
- Sử dụng Grok trên nền tảng X giờ đây rẻ hơn nhiều so với việc trả tiền cho gói đăng ký hàng tháng của ChatGPT-4.
- Grok hiện đã có sẵn cho tất cả người dùng X Premium với chi phí 8 đô la mỗi tháng, trong khi đăng ký hàng tháng cho ChatGPT-4 yêu cầu 20 đô la. Vì vậy, Grok của Elon Musk hiện rẻ hơn 60% so với đối thủ OpenAI.
- Musk lần đầu tiên đưa ra tuyên bố chống lại OpenAI và ChatGPT vào đầu năm 2023, gọi chatbot AI này là "thức tỉnh" vì nó kiên quyết tránh thảo luận về một số chủ đề nhất định với người dùng, chẳng hạn như tình dục, chính trị, tôn giáo, bản dạng giới tính, v.v.
- Sau khi mua lại Twitter với giá 44 tỷ đô la và đổi thương hiệu thành ứng dụng X, Musk quyết định thành lập công ty khởi nghiệp xAI tập trung vào AI của riêng mình để bù đắp cho những sai lầm mà ông tin là của OpenAI.
- Vào cuối mùa thu năm ngoái, công ty đã giới thiệu chatbot AI Grok với cộng đồng và tích hợp ngay trên X, cung cấp cho người dùng X Premium+.
📌 Grok, chatbot AI của Elon Musk, đã vượt qua đối thủ ChatGPT-4 về khả năng tiếp cận người dùng toàn cầu với mức giá rẻ hơn 60%. Musk chỉ trích OpenAI "thức tỉnh" vì hạn chế các chủ đề nhạy cảm, dẫn đến việc ông thành lập xAI và ra mắt Grok, tích hợp trên nền tảng X với gói Premium 8 đô la/tháng.
https://u.today/elon-musks-grok-now-surpasses-chatgpt-4-massively-details
- Joe Tsai, Đồng sáng lập và Chủ tịch Alibaba cho rằng các công ty công nghệ Trung Quốc đang tụt hậu khoảng 2 năm so với các công ty hàng đầu về AI của Mỹ.
- Các hạn chế xuất khẩu chip tiên tiến của Mỹ sang Trung Quốc, như GPU của Nvidia, đã ảnh hưởng đến các công ty công nghệ Trung Quốc, bao gồm cả Alibaba.
- Alibaba đã hủy kế hoạch tách Alibaba Cloud do những bất ổn từ các hạn chế xuất khẩu mở rộng của Mỹ.
- Chính quyền Biden đã cập nhật các biện pháp kiểm soát xuất khẩu, làm cho Trung Quốc khó tiếp cận hơn với các chip AI tiên tiến, thiết bị sản xuất bán dẫn và máy tính xách tay.
- Các công ty công nghệ Trung Quốc đang tìm cách giảm thiểu tác động, bao gồm tìm nguồn cung chip tiên tiến từ các nhà cung cấp khác và tích trữ chip sẵn có trên thị trường.
- Tsai dự đoán trong dài hạn, Trung Quốc sẽ phát triển khả năng sản xuất GPU cấp cao của riêng mình.
- Tsai cho rằng AI là rất quan trọng và việc phát triển mô hình ngôn ngữ lớn nội bộ là rất cần thiết vì nó giúp ích cho hoạt động điện toán đám mây của Alibaba.
- 80% công ty công nghệ Trung Quốc và một nửa công ty phát triển mô hình ngôn ngữ lớn chạy trên Alibaba Cloud.
📌 Chủ tịch Alibaba cho rằng các công ty công nghệ Trung Quốc đang tụt hậu 2 năm so với Mỹ trong phát triển AI do các hạn chế xuất khẩu chip của Mỹ. Tuy nhiên, ông dự đoán Trung Quốc sẽ phát triển khả năng sản xuất chip tiên tiến trong dài hạn. Alibaba coi AI và mô hình ngôn ngữ lớn là rất quan trọng cho hoạt động điện toán đám mây, với 80% công ty công nghệ Trung Quốc đang sử dụng Alibaba Cloud.
https://www.scmp.com/tech/big-tech/article/3258002/chinese-firms-lag-behind-us-peers-ai-development-two-years-alibaba-chairman-joe-tsai-says
- ByteDance, công ty mẹ của TikTok và Douyin, đang tăng tốc nỗ lực trong lĩnh vực AI tạo sinh thông qua tuyển dụng nhân tài và ra mắt các công cụ mới.
- Trang web của ByteDance đăng hơn 320 vị trí tuyển dụng liên quan đến AI tạo sinh tính đến thứ Ba, tăng từ 307 vị trí một tháng trước đó.
- Tìm kiếm cụ thể các vị trí phát triển mô hình ngôn ngữ lớn (LLMs) cho ra 130 vị trí, so với 107 vị trí vào tháng 2.
- Bộ phận Flow của ByteDance đã chiêu mộ nhân tài AI từ nhóm phát triển Ernie Bot của Baidu và đơn vị điện toán đám mây của Alibaba.
- Nhân viên bộ phận Flow làm việc với cường độ cao, ngầm đồng ý làm việc thứ Bảy và đôi khi tăng ca vào Chủ nhật.
- ByteDance ra mắt ứng dụng AI Hualu, phiên bản tiếng Trung của BagelBell, cho phép người dùng tạo nhân vật ảo và tương tác trong các câu chuyện ở các vũ trụ khác nhau.
- CEO Liang Rubo của ByteDance đã chỉ trích nhân viên thiếu ý thức khủng hoảng và phản ứng quá chậm trước sự trỗi dậy của ChatGPT.
- ByteDance tuyển dụng Jiang Lu, người đóng góp chính cho LLM VideoPoet của Google, nhằm bắt kịp OpenAI sau khi họ ra mắt Sora.
- Trước đó, ByteDance đã ra mắt nhiều sản phẩm AI như chatbot Doubao, Cici và nền tảng phát triển ứng dụng Coze, nhưng chưa đạt được độ phổ biến như TikTok hay Douyin.
📌 ByteDance đang đẩy mạnh phát triển AI tạo sinh với hơn 320 vị trí tuyển dụng, tăng từ 307 chỉ trong một tháng. Công ty đã ra mắt nhiều ứng dụng AI mới như Hualu, BagelBell và tuyển dụng nhân tài đóng góp cho LLM VideoPoet của Google để bắt kịp đà phát triển của OpenAI và ChatGPT.
https://www.scmp.com/tech/tech-trends/article/3256788/tiktok-owner-bytedance-accelerates-generative-ai-efforts-increased-talent-acquisition-release-new
- Claude 3 Opus của Anthropic đã vượt qua GPT-4 của OpenAI để giành vị trí đầu bảng xếp hạng Chatbot Arena.
- Bảng xếp hạng dựa trên phiếu bầu của người dùng, với hơn 400.000 phiếu bầu đã được thu thập từ tháng 5 năm ngoái.
- Khoảng cách điểm số giữa Claude 3 Opus và GPT-4 rất sít sao. GPT-4 đã ra mắt được 1 năm và phiên bản GPT-5 dự kiến sẽ ra mắt trong năm nay.
- Các mô hình từ Anthropic, OpenAI và Google chiếm phần lớn top 10 trong suốt thời gian qua. Gần đây, các mô hình từ startup AI của Pháp Mistral và các công ty Trung Quốc như Alibaba cũng đang bắt đầu chiếm nhiều vị trí top.
- Cả 3 phiên bản Claude 3 đều nằm trong top 10: Opus ở vị trí đầu, Sonnet đồng hạng 4 với Gemini Pro và Haiku đồng hạng 6 với phiên bản GPT-4 trước đó.
- Claude 3 Haiku, mô hình "kích thước cục bộ" của Anthropic, đạt kết quả ấn tượng ngang tầm GPT-4 mà không cần quy mô tham số khổng lồ như Opus hay các mô hình cỡ GPT-4.
📌 Claude 3 Opus đã vượt qua GPT-4 để giành vị trí số 1 trên bảng xếp hạng Chatbot Arena với hơn 400.000 phiếu bầu. Cả 3 phiên bản Claude 3 đều lọt top 10, cho thấy sự vượt trội của các mô hình AI đóng so với mã nguồn mở. Tuy nhiên, khoảng cách với GPT-4 không quá xa và OpenAI dự kiến sẽ ra mắt GPT-5 trong năm nay.
- Microsoft Copilot Pro ra mắt tính năng Copilot GPT Builder, cho phép người dùng thiết kế Copilot GPTs riêng mà không cần kiến thức lập trình, nhằm đơn giản hóa năng suất và chuyên môn hóa nhiệm vụ.
- OpenAI nâng cấp ChatGPT, cung cấp khả năng xây dựng GPTs cá nhân hóa, điều chỉnh chức năng của ChatGPT để đáp ứng nhu cầu cá nhân.
- Copilot Pro GPTs tích hợp liền mạch với Microsoft 365, giúp làm việc trực tiếp trong các ứng dụng quen thuộc như Word, Excel và Outlook.
- ChatGPT Plus GPTs có thể duyệt web và tạo hình ảnh, hữu ích cho công việc nghiên cứu hoặc tạo hình ảnh trực quan.
- Copilot Pro được thiết kế để hiệu quả, với các gợi ý AI xuất hiện ngay trong các ứng dụng Microsoft. ChatGPT Plus cung cấp trải nghiệm tương tác hơn, giống như trò chuyện với đồng nghiệp.
- Cả hai nền tảng đều cho phép người dùng tùy chỉnh mô hình GPT cho các tác vụ cụ thể mà không cần chuyên môn lập trình.
- ChatGPT nổi bật với khả năng tích hợp phần mềm bên ngoài thông qua các hành động tùy chỉnh, tương tác với dịch vụ web qua API keys hoặc OAuth.
- ChatGPT có lợi thế về hệ sinh thái và cộng đồng, với kho GPT do cộng đồng tạo ra, trong khi Copilot Pro hiện thiếu điều này.
📌 So sánh Copilot Pro GPTs và ChatGPT Plus GPTs đều là công cụ mạnh mẽ giúp tăng năng suất và sáng tạo. Copilot Pro phù hợp cho người dùng Microsoft 365, trong khi ChatGPT Plus nổi bật với khả năng web rộng rãi và mô hình do cộng đồng thúc đẩy. Lựa chọn nền tảng phù hợp dựa trên tính năng, tích hợp công việc và trải nghiệm người dùng có thể giúp tăng hiệu quả công việc đáng kể.
https://www.geeky-gadgets.com/copilot-pro-gpts-vs-chatgpt-plus-gpts/
- Claude 3 Opus là một LLM của Anthropic, cạnh tranh với GPT-4, Google Gemini và Microsoft Copilot.
- Nhiều người tin rằng Claude 3 Opus vượt trội hơn GPT-4 ở nhiều khía cạnh.
- Claude 3 Opus nhanh hơn đáng kể so với ChatGPT Plus, tạo ra phản hồi gần như nhanh bằng Google Gemini.
- Nó có thể tạo ra các phản hồi dài một cách nhanh chóng, ví dụ như viết mã Python để trích xuất dữ liệu trang web.
- Nhược điểm lớn nhất của Claude 3 Opus là thiếu trình thông dịch mã, không thể chạy mã trong cuộc trò chuyện như GPT-4.
- Tuy nhiên, có thể trong tương lai Claude 3 sẽ có trình thông dịch mã.
- Claude 3 Opus hỗ trợ tải lên tối đa 5 tệp với dung lượng lên đến 10MB mỗi tệp.
- Khi lập trình với Claude 3, ít cần phải làm rõ và thay đổi so với GPT-4.
- Claude 3 Opus là đối thủ cạnh tranh mà GPT-4 cần để thúc đẩy đổi mới.
- Trong khi các đối thủ như Google và Microsoft tiến bộ, GPT-4 vẫn giữ nguyên trong năm qua.
- Với GPT-5 dự kiến ra mắt sớm, đã đến lúc có một đối thủ thực sự của GPT-4.
- Các LLM ngày càng ấn tượng hơn, và Claude 3 hiện chỉ giới hạn ngoài Liên minh Châu Âu, nhưng dự kiến sẽ mở rộng ra nhiều khu vực hơn trong tương lai.
📌 Claude 3 Opus của Anthropic là một LLM mạnh mẽ, vượt trội hơn GPT-4 về tốc độ và khả năng sử dụng. Mặc dù còn thiếu trình thông dịch mã, nhưng tiềm năng cải tiến trong tương lai của Claude 3 đang thúc đẩy GPT-4 đổi mới, tạo ra sự cạnh tranh gay gắt trong không gian AI tạo sinh.
https://www.xda-developers.com/claude-3-opus-outperforms-gpt-4-gemini/
- Chatbot và trợ lý ảo đều là công nghệ AI đóng vai trò quan trọng trong môi trường kinh doanh hiện đại, giúp hỗ trợ khách hàng, hợp lý hóa quy trình và nâng cao trải nghiệm.
- Thống kê cho thấy thị trường chatbot toàn cầu đang tăng trưởng mạnh, dự kiến đạt 454,8 triệu USD vào năm 2027. Khoảng 1,4 tỷ người dùng chatbot trên toàn cầu.
- Chatbot hoạt động dựa trên các quy tắc và kịch bản được xác định trước. Trợ lý ảo sử dụng công nghệ AI tiên tiến hơn như xử lý ngôn ngữ tự nhiên (NLP) và học máy, giúp hiểu ngữ cảnh và tương tác giống như con người.
- Ưu điểm của chatbot: xử lý nhanh các tác vụ lặp đi lặp lại, tiết kiệm chi phí, hoạt động 24/7, xử lý được khối lượng tương tác lớn, phản hồi nhất quán, hỗ trợ đa ngôn ngữ, dễ mở rộng.
- Nhược điểm của chatbot: khó xử lý các truy vấn phức tạp dựa trên ngữ cảnh, thiếu sự đồng cảm như con người, cần thời gian và nguồn lực để phát triển, đào tạo.
- Ưu điểm của trợ lý ảo: linh hoạt xử lý nhiều tác vụ, hiểu và phản hồi tốt với các truy vấn phức tạp, tương tác cá nhân hóa, duy trì ngữ cảnh cuộc trò chuyện, hỗ trợ tương tác bằng giọng nói, tích hợp với nhiều thiết bị.
- Nhược điểm của trợ lý ảo: chi phí cao hơn, khó mở rộng như chatbot, cần nhiều tài nguyên để xây dựng và duy trì, thiết bị hỗ trợ trợ lý ảo chất lượng cao khá đắt.
- Không có lựa chọn tuyệt đối giữa chatbot và trợ lý ảo. Doanh nghiệp cần căn cứ vào nhu cầu, ngân sách và mức độ cá nhân hóa mong muốn để đưa ra quyết định phù hợp.
📌 Chatbot hiệu quả về chi phí và xử lý khối lượng lớn, trong khi trợ lý ảo mang lại sự linh hoạt và tương tác tinh vi hơn. Doanh nghiệp cần lựa chọn công nghệ AI phù hợp với mục tiêu và mang lại trải nghiệm thu hút khách hàng.
https://www.entrepreneur.com/growing-a-business/chatbots-vs-virtual-assistants-which-is-better/467335
- Robin Li Yanhong, CEO của Baidu, cho biết mô hình AI Ernie 4 của công ty vượt trội hơn GPT-4 của OpenAI trong các tác vụ tiếng Trung, bao gồm sáng tác thơ theo phong cách thời nhà Đường.
- Bình luận của Li xuất hiện trong bối cảnh ngành công nghiệp AI Trung Quốc lo ngại đang tụt hậu so với Mỹ, đặc biệt sau khi OpenAI ra mắt công cụ chuyển văn bản thành video Sora.
- Baidu là ứng cử viên hàng đầu trong nỗ lực tạo ra đối trọng với ChatGPT của Trung Quốc. Số lượng người dùng Ernie Bot đã vượt quá 100 triệu vào năm ngoái.
- Li cho rằng sự phát triển của công nghệ AI sẽ khiến nghề lập trình trở nên lỗi thời. Doanh thu từ dịch vụ AI tạo sinh và các lĩnh vực liên quan của Baidu đạt 656 triệu nhân dân tệ trong quý 4/2023.
- Các sản phẩm AI của Trung Quốc được thiết kế để tránh các câu hỏi và câu trả lời nhạy cảm, vốn khiến các ứng dụng ChatGPT của bên thứ ba trở thành mục tiêu của cơ quan quản lý.
📌 Robin Li khẳng định mô hình Ernie 4 của Baidu vượt trội hơn GPT-4 trong tác vụ sáng tác thơ cổ Trung Hoa. Trong bối cảnh lo ngại tụt hậu so với Mỹ, Baidu và các gã khổng lồ công nghệ Trung Quốc đang đẩy mạnh phát triển AI, thu hút hơn 100 triệu người dùng và 656 triệu nhân dân tệ doanh thu trong quý 4/2023, đồng thời tránh các nội dung nhạy cảm.
https://www.scmp.com/tech/big-tech/article/3254995/baidu-ceo-says-its-ai-model-bests-openais-gpt-4-imperial-chinese-poetry-citing-mao-zedong-poem
- Microsoft giới thiệu công cụ tạo chatbot Copilot GPT cho người dùng Copilot Pro với giá 30$/người dùng/tháng.
- Công cụ cho phép tạo các chatbot chuyên biệt theo vai trò công việc mà không cần kỹ năng lập trình.
- Copilot GPT được Microsoft phát triển độc lập, không phụ thuộc vào đối tác OpenAI.
- Tính năng nổi bật là truy xuất dữ liệu tăng cường (RAG), giúp chatbot truy xuất thông tin nội bộ để hỗ trợ các tác vụ chuyên biệt như HR, hướng dẫn công ty.
- Hỗ trợ tạo hình ảnh AI nhờ tích hợp DALL-E 3.
- Giao diện tạo chatbot đơn giản, sử dụng ngôn ngữ tự nhiên.
- Người dùng có thể tự tạo hoàn toàn hoặc nhận hướng dẫn từ Copilot.
- Giá Copilot GPT cao hơn công cụ tương tự của OpenAI (20$/người dùng/tháng).
📌 Microsoft đã giới thiệu công cụ Copilot GPT, cho phép người dùng Copilot Pro tạo chatbot chuyên biệt mà không cần lập trình với giá 30$/tháng. Công cụ hỗ trợ truy xuất dữ liệu nội bộ, tạo hình ảnh AI và có giao diện đơn giản. Đây là bước đi độc lập của Microsoft, giảm sự phụ thuộc vào OpenAI trong bối cảnh các vụ kiện và giám sát từ cơ quan quản lý.
https://www.techradar.com/pro/forget-chatgpt-this-new-microsoft-copilot-wants-to-solve-your-job-specific-problems
- Các LLM chuyên biệt như StarCoder2 mang lại hiệu quả và hiệu suất cao cho các tác vụ cụ thể mà không cần sự cồng kềnh của các công cụ chung chung như ChatGPT, Microsoft Copilot hay Google Gemini.
- Các mô hình nhỏ hơn như Vicuna-7B đang trở nên phổ biến hơn vì chúng dễ triển khai hơn và tiêu tốn ít tài nguyên hơn. Ví dụ, Vicuna-7B có thể chạy trên một chiếc smartphone Android nếu có đủ RAM.
- Việc đào tạo một mô hình lớn hơn tốn kém hơn. Các công ty dễ dàng xây dựng mô hình ngôn ngữ của riêng mình với các mô hình nhỏ hơn, tập trung vào một chủ đề duy nhất.
- Retrieval-Augmented Generation (RAG) cho phép triển khai một mô hình ngôn ngữ nhỏ hơn không cần đào tạo trên bất kỳ dữ liệu cụ thể nào. Thay vào đó, nó có thể lấy câu trả lời từ tài liệu và cho người dùng biết chính xác tài liệu nào chứa câu trả lời.
- Một LLM được sử dụng để quản lý nhà thông minh không cần có các tham số chứa thông tin về lập trình. Nó có thể được đào tạo trên một tập dữ liệu nhỏ hơn nhiều với các tham số thực sự liên quan.
📌 Tương lai của AI hướng tới các LLM chính xác, chuyên biệt, tập trung vào các tác vụ cụ thể như lập trình. Các mô hình nhỏ hơn, ít tốn kém hơn trong đào tạo và triển khai sẽ trở nên phổ biến, giúp các công ty dễ dàng xây dựng mô hình ngôn ngữ riêng phù hợp với nhu cầu sử dụng.
https://www.xda-developers.com/chatgpt-gemini-future-of-ai/
- Claude 3 có khả năng xử lý tới 200.000 thông tin, duy trì cuộc trò chuyện dài và nắm bắt chủ đề phức tạp tốt hơn ChatGPT (xử lý 32.000 thông tin/cuộc trò chuyện và 128.000 với tùy chọn nâng cao).
- Claude 3 phù hợp cho việc tạo nội dung với khả năng tìm kiếm và truy xuất thông tin nhanh. Tuy nhiên cần đăng ký trả phí cho bộ công cụ đầy đủ Opus và có thể bị hạn chế khu vực.
- Claude 3 không hỗ trợ lập trình, tạo ảnh, tương tác bằng giọng nói hay plugin như ChatGPT.
- Claude 3 hạn chế mô hình hóa nhân vật để ngăn lạm dụng, thông tin sai lệch và duy trì các tiêu chuẩn đạo đức, đảm bảo các tương tác có trách nhiệm.
- Claude 3 làm tốt việc xử lý hình ảnh và làm theo các hướng dẫn phức tạp (prompt engineering). Tuy nhiên nó gặp khó khăn với các tác vụ toán học đơn giản.
📌 Claude 3 xử lý tốt thông tin với ngữ cảnh rộng, diễn giải nội dung hình ảnh nhưng không có đầy đủ tính năng như ChatGPT. Tuy nhiên khả năng xử lý hướng dẫn chi tiết và tìm kiếm thông tin của nó khiến Claude 3 trở thành đối thủ đáng gờm trong lĩnh vực AI với 200.000 thông tin có thể xử lý/cuộc trò chuyện so với 128.000 của ChatGPT.
Citations:
[1] https://www.geeky-gadgets.com/claude-3-vs-chatgpt/
- Inflection AI đã chuyển đổi chatbot Pi sang mô hình ngôn ngữ lớn mới, Inflection-2.5, với khả năng gần ngang bằng GPT-4.
- Công ty đã công bố chi tiết về nâng cấp này và thông tin mới về sự tăng trưởng người dùng gần đây của Pi, cũng như kế hoạch kiếm tiền từ người dùng.
- Inflection AI do Mustafa Suleyman, đồng sáng lập nhóm nghiên cứu AI DeepMind của Google LLC, lãnh đạo và đã nhận hơn $1.5 tỷ đầu tư từ Microsoft Corp., Nvidia Corp. và các nhà đầu tư khác.
- Inflection đã ra mắt sản phẩm chủ lực, chatbot Pi, vào tháng 5 năm ngoái.
- Phiên bản ban đầu của Pi được trang bị mô hình ngôn ngữ lớn được gọi là Inflection-1. Công ty tiết lộ rằng họ đã huấn luyện LLM với 4% công suất xử lý mà OpenAI sử dụng để xây dựng GPT-4.
- Inflection-2.5, mô hình LLM mới ra mắt hôm nay, đã được huấn luyện bằng 10 lần công suất xử lý hơn so với mô hình thế hệ đầu tiên của Inflection AI.
- Sự tăng cường nguồn lực cơ sở hạ tầng đã giúp công ty nâng cao đáng kể chất lượng phản hồi. Theo Inflection AI, Inflection-2.5 đã gấp đôi điểm số của người tiền nhiệm trong đánh giá liên quan đến một loạt câu hỏi toán học. Nó còn cho thấy cải thiện đáng kể hơn nữa trong bài kiểm tra bao gồm các nhiệm vụ lập trình.
- Inflection AI cũng đánh giá mô hình mới nhất của mình trên nhiều chuẩn mực khác, đặc biệt là một phần của bộ dữ liệu BIG-Bench do Google phát triển. Đây là tập hợp các câu hỏi được thiết kế đặc biệt khó khăn cho LLMs để giải quyết. Trên tất cả các chuẩn mực mà Inflection AI sử dụng, Inflection-2.5 đạt hiệu suất trung bình chỉ kém GPT-4 dưới 6%.
- Cùng với kết quả đánh giá, công ty hôm nay cũng công bố dữ liệu mới về sự thu hút thị trường của Pi. Suleyman cho biết cơ sở người dùng hàng ngày của chatbot bao gồm một triệu người dùng hoạt động hàng ngày và đã tăng trưởng khoảng 10% mỗi tuần trong hai tháng qua. Phiên chat trung bình của Pi kéo dài 33 phút, với Inflection AI tuyên bố "sự gắn bó hàng tháng cao hơn so với các đối thủ hàng đầu."
- Inflection AI được cho là có kế hoạch kiếm tiền từ chatbot bằng cách cung cấp phiên bản trả phí theo đăng ký. Theo Axios, công ty có thể cuối cùng sẽ giới thiệu một mô hình giá khác sẽ tính phí khách hàng dựa trên các cột mốc năng suất, chẳng hạn như khi "ai đó đạt được mục tiêu cụ thể mà họ đã đặt ra bên trong Pi."
- Công ty đối mặt với sự cạnh tranh không chỉ từ ChatGPT mà còn từ chatbot Gemini của Google và một loạt đối thủ khởi nghiệp được tài trợ hậu hĩnh. Một trong những đối thủ đó, Anthropic LLC, đã phát hành phiên bản mới của mô hình LLM chủ lực của họ vào đầu tuần này. Claude 3 có thể xử lý các lệnh lên đến 200.000 token và hứa hẹn sẽ vượt trội hơn GPT-4 trong nhiều loại nhiệm vụ.
📌 Inflection AI đã chuyển đổi chatbot Pi sang mô hình ngôn ngữ lớn mới, Inflection-2.5, với khả năng gần ngang bằng GPT-4, và công bố kế hoạch kiếm tiền từ người dùng. Công ty được dẫn dắt bởi Mustafa Suleyman và đã nhận hơn $1.5 tỷ đầu tư từ Microsoft Corp., Nvidia Corp. và các nhà đầu tư khác. Inflection-2.5 đã được huấn luyện bằng 10 lần công suất xử lý hơn so với mô hình thế hệ đầu tiên của Inflection AI và đã gấp đôi điểm số của phiên bản tiền nhiệm trong đánh giá liên quan đến một loạt câu hỏi toán học. Công ty cũng đánh giá mô hình mới nhất của mình trên nhiều chuẩn mực khác và đạt hiệu suất trung bình chỉ kém GPT-4 dưới 6%. Cơ sở người dùng hàng ngày của chatbot bao gồm một triệu người dùng hoạt động hàng ngày và đã tăng trưởng khoảng 10% mỗi tuần trong hai tháng qua.
Citations:
[1] https://siliconangle.com/2024/03/07/inflection-ai-rolls-new-large-language-model-pi-chatbot/
- Anthropic, được hỗ trợ bởi Google và Amazon, đã phát hành mô hình Claude 3, tuyên bố vượt trội so với GPT-4 của OpenAI.
- Claude 3 Opus, một mô hình đa phương tiện, có sẵn qua giao diện chatbot trên web, API của Anthropic, và nền tảng phát triển của Amazon và Google.
- Mô hình Claude 3 không truy cập được web, không cung cấp thông tin về sự kiện sau tháng 8/2023.
- Claude 3 có "cửa sổ ngữ cảnh" lớn, với khả năng hỗ trợ lên đến 200,000 token, tương đương 150,000 từ.
- Một số khách hàng được hỗ trợ lên đến 1 triệu token, tương đương với 700,000 từ.
- Claude 3 Opus đã được kiểm tra qua một loạt câu hỏi từ trivia đến tư vấn y tế và tâm lý.
- Mô hình cung cấp thông tin lịch sử chính xác nhưng không cập nhật được tin tức hiện tại hoặc sự kiện gần đây.
- Opus cung cấp câu trả lời có tính hữu ích cao, với thông tin đầy đủ và dễ hiểu.
- Mô hình này cũng thể hiện khả năng xử lý các câu hỏi về quan hệ chủng tộc và địa chính trị một cách cân nhắc.
- Opus có thể tạo ra mô tả sản phẩm và tổng hợp văn bản một cách chính xác.
📌 Claude 3 của Anthropic, với mô hình Opus, cung cấp thông tin chính xác về các sự kiện lịch sử và khả năng tổng hợp văn bản mạnh mẽ. Tuy nhiên, mô hình này không thể cập nhật thông tin sau tháng 8/2023 và cần cải thiện khả năng tích hợp với các ứng dụng và dịch vụ bên thứ ba để mở rộng khả năng của mình.
Citations:
https://techcrunch.com/2024/03/07/we-tested-anthropics-new-chatbot-and-came-away-a-bit-disappointed/
- Anthropic ra mắt Claude phiên bản đầu tiên vào tháng 3/2023, sau ChatGPT vài tháng.
- Claude 3 có ba phiên bản: Haiku, Sonnet và Opus, trong đó Opus là lớn nhất và mạnh mẽ nhất.
- Claude 3 được đánh giá cao về khả năng đối thoại và lý luận, vượt qua cả GPT-4 và Google Gemini Ultra.
- Trong bài kiểm tra IQ, Claude 3 đạt điểm 101, cao hơn điểm trung bình của con người và GPT-4.
- Claude 3 cũng thể hiện khả năng tương đương hoặc vượt trội so với con người trong các lĩnh vực toán học, truy xuất thông tin và ngôn ngữ.
- Các thử nghiệm với Claude 3 bao gồm giải thích về du hành thời gian, cách đối phó khi bị tổn thương tình cảm, dự đoán vui vẻ và tranh luận về sự tồn tại của ma.
- Claude 3 còn có khả năng phân tích hình ảnh, biểu đồ và các dạng dữ liệu khác, góp phần vào khả năng hiểu biết tự nhiên hơn về thế giới.
📌 Claude 3 là mô hình AI tiên tiến, với khả năng lý luận và tự nhận thức mạnh mẽ, đạt điểm IQ 101 và thể hiện khả năng vượt trội trong các bài kiểm tra so với GPT-4 và con người. Phiên bản mới này còn có thể phân tích đa dạng dữ liệu, mang lại trải nghiệm tương tác gần gũi như đang nói chuyện với một người thực sự.
Citations:
[1] https://www.tomsguide.com/ai/forget-chatgpt-and-gemini-claude-3-is-the-most-human-like-chatbot-ive-ever-used
- Claude 3 tỏ ra vượt trội với tỷ lệ từ chối thấp hơn, cho thấy khả năng xử lý đa dạng yêu cầu tốt hơn các mô hình khác.
- Các chuyên gia đang lên kế hoạch so sánh chi tiết giữa Claude 3, GPT-4 và Gemini Ultra để đánh giá khả năng của từng mô hình.
- Mặc dù có những ưu điểm nhất định, Claude 3 cũng gặp hạn chế trong việc phát hiện các chi tiết tinh tế như điều kiện thời tiết trong hình ảnh.
- Các bài kiểm tra cho thấy Claude 3 có hiệu suất cao hơn Gemini và ChatGPT trong nhiều lĩnh vực, đặc biệt là trong lập trình và nhiệm vụ OCR (Nhận dạng Ký Tự Quang Học).
📌 Claude 3 nổi bật với khả năng xử lý yêu cầu đa dạng và tỷ lệ từ chối thấp, cho thấy sự vượt trội so với ChatGPT và Gemini, đặc biệt trong lập trình và OCR. Tuy nhiên, mô hình này vẫn còn hạn chế trong việc nhận diện chi tiết nhỏ trong hình ảnh. Các chuyên gia sẽ tiến hành so sánh chi tiết hơn giữa Claude 3, GPT-4 và Gemini Ultra trong thời gian tới.
Citations:
[1] https://www.geeky-gadgets.com/claude-3-vs-chatgpt-vs-gemini/
- Perplexity AI được thiết kế để cung cấp cho người dùng khả năng tìm kiếm trên web và cung cấp câu trả lời chi tiết.
- Công cụ này giúp tăng cường hiệu quả kinh doanh bằng cách cung cấp thông tin cập nhật và phù hợp với nhu cầu.
- Perplexity AI nhằm mục tiêu cung cấp kết quả tìm kiếm chính xác và chi tiết, sử dụng khả năng AI để cung cấp thông tin sâu sắc.
- Khi thử nghiệm với các truy vấn giống nhau, Perplexity AI đã chứng minh khả năng cung cấp kết quả tập trung và tùy chỉnh hơn so với Google.
- Perplexity AI có các tính năng như tùy chọn focus cho các tìm kiếm mục tiêu, tính năng co-pilot để tinh chỉnh truy vấn, và collections để tổ chức tìm kiếm với các lệnh tùy chỉnh.
- Perplexity AI nổi bật so với Google với cách tiếp cận kết quả tìm kiếm, cung cấp dữ liệu cụ thể, hướng đến doanh nghiệp.
- Công cụ này được thiết kế cho việc truy xuất thông tin hiệu quả, sử dụng thuật toán tiên tiến để đảm bảo truy cập nhanh chóng đến dữ liệu liên quan.
📌 Perplexity AI đang trở thành một lựa chọn mới mạnh mẽ cho các doanh nghiệp muốn cải thiện khả năng nghiên cứu của mình và duy trì lợi thế cạnh tranh. Khi thử nghiệm với các truy vấn giống nhau, Perplexity AI đã chứng minh khả năng cung cấp kết quả tập trung và tùy chỉnh hơn so với Google. Sự tập trung vào việc cung cấp dữ liệu hướng đến doanh nghiệp là một ưu điểm đáng kể, đặc biệt là cho những chuyên gia cần thông tin chính xác một cách nhanh chóng. Mặc dù có thể còn một số hạn chế, nhưng Perplexity AI đã chứng minh khả năng vượt trội so với Google trong việc cung cấp kết quả tìm kiếm tập trung và tùy chỉnh, từ đó nâng cao độ chính xác cho người dùng trong lĩnh vực học thuật và nghiên cứu.
Citations:
[1] https://www.geeky-gadgets.com/perplexity-vs-google-2024/
- Anthropic, công ty AI được thành lập bởi các cựu nhân viên của OpenAI, tuyên bố rằng dòng AI mới Claude 3 có hiệu suất ngang ngửa hoặc tốt hơn các mô hình hàng đầu từ Google và OpenAI.
- Claude 3 là mô hình đa phương tiện, có khả năng hiểu cả văn bản và hình ảnh, trả lời nhiều câu hỏi hơn, hiểu chỉ dẫn dài hơn và chính xác hơn.
- Có ba phiên bản của Claude 3: Haiku, Sonnet và Opus, với Opus là mô hình "lớn nhất và thông minh nhất". Opus và Sonnet hiện đã có sẵn trên claude.ai và API của nó.
- Các mô hình Claude 3 có thể được triển khai cho các tác vụ chatbot, tự động hoàn thành và trích xuất dữ liệu.
- Phiên bản Haiku của Claude 3 được mô tả là "mô hình nhanh nhất và tiết kiệm chi phí nhất trên thị trường", có khả năng đọc một bài báo nghiên cứu dày đặc "trong ít hơn ba giây".
- Opus đã vượt trội hơn hầu hết các mô hình khác trong nhiều bài kiểm tra benchmarking, cho thấy khả năng suy luận ở cấp độ sau đại học tốt hơn GPT-4 của OpenAI, với tỷ lệ 50.4% so với 35.7% của GPT-4.
- Anthropic đã huấn luyện các mô hình Claude 3 trên một hỗn hợp dữ liệu nội bộ không công bố, dữ liệu từ bên thứ ba và dữ liệu công khai tính đến tháng 8 năm 2023, sử dụng phần cứng từ AWS của Amazon và Google Cloud.
📌 Anthropic đã đạt được bước tiến đáng kể trong lĩnh vực AI với việc ra mắt Claude 3, một dòng mô hình AI đa phương tiện có khả năng vượt trội so với các mô hình hàng đầu hiện nay như Gemini và ChatGPT. Có ba phiên bản của Claude 3: Haiku, Sonnet và Opus, với Opus là mô hình "lớn nhất và thông minh nhất. Opus đã vượt trội cho thấy khả năng suy luận ở cấp độ sau đại học tốt hơn GPT-4 của OpenAI, với tỷ lệ 50,4% so với 35,7% của GPT-4. Phiên bản Haiku của Claude 3 được mô tả là "mô hình nhanh nhất và tiết kiệm chi phí nhất trên thị trường", có khả năng đọc một bài báo nghiên cứu dày đặc "trong ít hơn ba giây". Dữ liệu công khai tính đến tháng 8/2023, sử dụng phần cứng từ AWS của Amazon và Google Cloud.
Citations:
[1] https://www.theverge.com/2024/3/4/24090087/anthropic-claude-3-opus-ai-chatbot-multimodal
- Công cụ LLM Comparator được nhóm nghiên cứu tại Google Research giới thiệu, hỗ trợ so sánh trực tiếp kết quả của các mô hình ngôn ngữ lớn (LLM), cho phép phân tích sâu về hiệu suất của chúng.
- LLM Comparator cho phép người dùng khám phá sự khác biệt giữa các phản hồi mô hình một cách tương tác, minh họa rõ ràng điểm mạnh và điểm yếu của từng mô hình.
- Kể từ khi ra mắt, công cụ đã thu hút sự chú ý đáng kể với hơn 400 người dùng tham gia vào hơn 1.000 thí nghiệm đánh giá, chứng minh tính hữu ích trong việc đơn giản hóa quá trình đánh giá cho các nhà phát triển LLM.
- Quy trình đánh giá bao gồm việc sử dụng các mô hình cơ sở, chọn bộ dữ liệu kích thích, thu thập đánh giá cá nhân và tính toán các chỉ số tổng hợp.
- LLM Comparator đại diện cho một bước tiến quan trọng trong việc đánh giá các mô hình ngôn ngữ lớn, cung cấp một nền tảng phân tích tương tác, mở rộng khả năng, giúp hiểu sâu hơn về khả năng của mô hình và thúc đẩy sự phát triển của các hệ thống AI tiên tiến và hiệu quả hơn.
📌 LLM Comparator từ Google AI là một công cụ đột phá trong việc đánh giá và so sánh hiệu suất của các mô hình ngôn ngữ lớn, giúp các nhà phát triển AI hiểu rõ hơn về cách cải thiện mô hình của mình. Với hơn 400 người dùng và hơn 1.000 thí nghiệm đánh giá đã được thực hiện, công cụ này không chỉ chứng minh được giá trị thực tiễn trong việc đánh giá mô hình mà còn thúc đẩy sự phát triển nhanh chóng của các hệ thống AI tiên tiến, qua đó mở ra những cơ hội mới trong việc tối ưu hóa và tinh chỉnh các mô hình ngôn ngữ lớn.
Citations:
[1] https://www.marktechpost.com/2024/02/27/google-ai-introduces-llm-comparator-a-step-towards-understanding-the-evaluation-of-large-language-models/
- Gemini Ultra và ChatGPT là hai công cụ AI hàng đầu, cung cấp nhiều tính năng hỗ trợ tăng cường năng suất và sáng tạo.
- Gemini Ultra là một phần của bộ Gemini Advance, nổi bật với khả năng tạo sinh hình ảnh nhanh chóng và quản lý nhiều tác vụ cùng một lúc.
- ChatGPT-4 xuất sắc trong việc tạo sinh mã, cả hai đều mạnh mẽ trong tạo sinh văn bản và phân tích PDF.
- Gemini Ultra có thời gian phản hồi nhanh hơn và khả năng tạo sinh bốn hình ảnh cùng một lúc, trong khi ChatGPT-4 chỉ tạo sinh một hình ảnh.
- Mặc dù Gemini Ultra có thể có lợi thế trong một số lĩnh vực nhờ vào các cải tiến gần đây, ChatGPT được đánh giá cao về tính khả dụng và giá cả phải chăng.
📌 Gemini Ultra vượt trội trong việc tạo sinh hình ảnh và có thời gian phản hồi nhanh hơn, làm cho nó trở nên lý tưởng cho các ứng dụng thời gian thực và nhu cầu tạo sinh hình ảnh lớn. Trong khi đó, ChatGPT nổi bật với khả năng tạo sinh mã và được nhiều người ưa chuộng vì tính dễ sử dụng và giá cả phải chăng. Cả hai đều mạnh mẽ trong tạo sinh văn bản và phân tích PDF, nhưng lựa chọn cuối cùng nên dựa trên cân nhắc kỹ lưỡng về các tính năng cụ thể và cách chúng phù hợp với yêu cầu công việc của bạn.
Citations:
[1] https://www.geeky-gadgets.com/gemini-ultra-vs-chatgpt/
- Trong cuộc phỏng vấn với Wired, CEO của Nvidia - Jensen Huang - tiết lộ ông sử dụng Perplexity AI gần như hàng ngày.
- Huang cho biết ông ưa chuộng Perplexity AI hơn các đối thủ như Bard/Gemini hay Grok.
- Perplexity AI được sử dụng bởi Huang chủ yếu cho mục đích nghiên cứu, đặc biệt là trong lĩnh vực khám phá dược phẩm với sự hỗ trợ của máy tính.
- Perplexity AI được mô tả là "công cụ trả lời hội thoại đầu tiên trên thế giới".
- Nvidia đã tham gia vòng gọi vốn Series B trị giá 73.6 triệu đô la vào tháng 1 năm 2024, do đó không ngạc nhiên khi Huang quan tâm đến Perplexity AI.
- Trong cuộc phỏng vấn, Huang cũng mô tả về một loại trung tâm dữ liệu mới, được gọi là "nhà máy AI", đã được phát triển trong vài năm và sắp được sản xuất tại Nvidia.
- Cuộc trò chuyện cũng đề cập đến các cuộc thảo luận thường xuyên của Huang với các giám đốc điều hành cấp cao của TSMC như Morris Chang, với các chủ đề nóng bỏng như đóng gói tiên tiến CoWoS, kế hoạch dung lượng và công nghệ mới liên quan.
📌 CEO của Nvidia, Jensen Huang, đã chia sẻ về việc ông sử dụng Perplexity AI và ChatGPT gần như hàng ngày, với một sự ưa chuộng rõ ràng cho Perplexity AI. Sự quan tâm của ông đối với AI không chỉ dừng lại ở việc sử dụng các công cụ này cho nghiên cứu cá nhân, đặc biệt là trong lĩnh vực khám phá dược phẩm, mà còn thể hiện qua việc Nvidia đầu tư vào công nghệ AI, như việc tham gia vào vòng gọi vốn Series B gần đây. Mô tả của Huang về "nhà máy AI" cũng cho thấy tầm nhìn của Nvidia về tương lai của trung tâm dữ liệu và sự phát triển của công nghệ AI, cũng như mối quan hệ chặt chẽ với TSMC trong việc phát triển các công nghệ tiên tiến như CoWoS.
Citations:
[1] Nvidia CEO Jensen Huang uses Perplexity AI 'almost every day' – ChatGPT is also a favorite https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-ceo-jensen-huang-uses-perplexity-ai-almost-every-day-chatgpt-is-also-a-favorite
1. Meta descriptions (in Vietnamese):
Khám phá cuộc đua công nghệ AI với bảng xếp hạng mô hình AI hàng đầu, nơi OpenAI's GPT-4 vẫn dẫn đầu và sự xuất hiện của các đối thủ mới như Gemini của Google và Mistral-Medium.
2. Meta keywords (in Vietnamese):
AI, bảng xếp hạng AI, mô hình AI, OpenAI GPT-4, Gemini Google, Mistral-Medium, Stanford AI Index, đánh giá AI, công nghệ AI tiên tiến.
3. SEO title (in Vietnamese):
Bảng Xếp Hạng AI: OpenAI's GPT-4 Dẫn Đầu Trong Cuộc Đua Công Nghệ AI
- Bảng xếp hạng mô hình AI trực tuyến ngày càng phổ biến, cung cấp cái nhìn thời gian thực về cuộc chiến giành ngôi vương AI giữa các công ty công nghệ lớn.
- Mô hình AI là tập hợp các phương trình toán học được bao bọc trong mã lập trình nhằm đạt được mục tiêu cụ thể.
- Google's Gemini (trước đây là Bard) và Mistral-Medium của startup Mistral AI tại Paris đã tạo nên sự hứng thú trong cộng đồng AI và cạnh tranh cho vị trí hàng đầu.
- OpenAI's GPT-4 tiếp tục thống trị các bảng xếp hạng.
- Các bảng xếp hạng đánh giá mô hình AI dựa trên khả năng hoàn thành các nhiệm vụ cụ thể.
- Stanford's AI Index, báo cáo hàng năm theo dõi hiệu suất kỹ thuật của các mô hình AI, đã xem xét 50 tiêu chuẩn nhưng chỉ bao gồm 20 tiêu chuẩn trong báo cáo năm ngoái.
- Các nhà nghiên cứu thừa nhận rằng các bài kiểm tra và bảng xếp hạng có những hạn chế nhưng vẫn là công cụ quan trọng để đánh giá hệ thống AI.
📌 Trong bối cảnh công nghệ AI không ngừng phát triển, việc theo dõi và đánh giá hiệu suất của các mô hình AI thông qua các bảng xếp hạng trực tuyến đã trở nên quan trọng hơn bao giờ hết. OpenAI's GPT-4 hiện vẫn là mô hình AI dẫn đầu, trong khi đó, các đối thủ mới như Gemini của Google và Mistral-Medium đang nổi lên như những ứng cử viên sáng giá. Báo cáo Stanford's AI Index hàng năm cung cấp cái nhìn sâu sắc về tiến trình của AI, dù chỉ lựa chọn một số tiêu chuẩn để đánh giá. Các nhà nghiên cứu nhấn mạnh tầm quan trọng của việc tiếp tục phát triển các tiêu chuẩn đánh giá để chúng có thể phản ánh chính xác hơn năng lực thực sự của AI trong thời đại số.
Citations:
[1] https://www.nbcnews.com/tech/are-still-smarter-ai-s-way-keep-track-rcna136990
- Công cụ tạo video từ văn bản Sora của OpenAI đã tạo ra những làn sóng lớn trong cộng đồng công nghệ Trung Quốc, với cảm xúc trộn lẫn giữa sự ngưỡng mộ và lo ngại.
- Một doanh nhân Trung Quốc đã mô tả Sora như là một "khoảnh khắc Newton" trong lĩnh vực AI, theo báo cáo của South China Morning Post.
- Sora cho phép người dùng tạo ra các video chân thực và động từ những lời nhắn văn bản đơn giản, có khả năng làm thay đổi nhiều ngành nghề từ quảng cáo, giải trí đến giáo dục và y tế.
- Chuyên gia Trung Quốc đánh giá cao khả năng tạo ra hình ảnh tự nhiên và sự kết hợp mượt mà giữa tạo văn bản và tạo video của Sora.
- Zhou Hongyi, Chủ tịch và CEO của 360 Security Technology, bày tỏ lo ngại trên Weibo về khả năng khoảng cách phát triển AI giữa Trung Quốc và Mỹ có thể ngày càng mở rộng.
- Zhou chỉ ra rằng các mô hình ngôn ngữ lớn (LLMs) hàng đầu của Trung Quốc, như những công cụ AI sử dụng ChatGPT, gần đạt tới khả năng của GPT-3.5, nhưng vẫn còn khoảng cách khoảng 1.5 năm so với việc OpenAI phát hành GPT-4 vào tháng 3 năm 2023.
- Một số doanh nhân Trung Quốc tỏ ra thận trọng khi đánh giá quá cao khả năng của AI Trung Quốc, trong khi những người khác bày tỏ quan ngại về tiến bộ của Sora.
- Fang Han, CEO của nhà phát triển và xuất bản game Kunlun Tech, bày tỏ sự hoài nghi trong một cuộc phỏng vấn với Shang Securities News, cho rằng dựa trên các video demo của Sora, hệ thống này vẫn chưa có bước tiến đáng kể trong việc hiểu biết thế giới.
📌 Sự ra mắt của công cụ tạo video AI Sora của OpenAI đã gây ra nhiều phản ứng từ cộng đồng công nghệ Trung Quốc. Sự ngưỡng mộ đối với khả năng tạo hình ảnh tự nhiên và tích hợp văn bản-video của Sora đi đôi với lo ngại về sự chênh lệch trong phát triển AI giữa Trung Quốc và Mỹ. Mặc dù các mô hình ngôn ngữ lớn của Trung Quốc tiến gần tới khả năng của GPT-3.5, nhưng vẫn tồn tại khoảng cách thời gian so với GPT-4 của OpenAI.
Citations:
[1] https://timesofindia.indiatimes.com/gadgets-news/chinas-reaction-to-openais-ai-video-generating-tool-impressed-and-worried/articleshow/107848016.cms
- ChatGPT có thể cung cấp các phản hồi chi tiết và sâu rộng hơn so với các chatbot khác, bao gồm cả Copilot.
- Copilot được tích hợp vào công cụ tìm kiếm Bing của Microsoft, sau đó được đổi tên thành Copilot, có khả năng truy cập toàn bộ internet miễn phí.
- Copilot có thể cung cấp các câu trả lời mang tính đối thoại và giống con người, đặc biệt hữu ích trong việc trả lời các câu hỏi về tin tức hiện tại.
- ChatGPT có thể gặp phải "ảo giác" và cung cấp thông tin không chính xác, trong khi Copilot cố gắng giải quyết vấn đề này bằng cách cung cấp nguồn thông tin.
- Copilot cũng được sử dụng để cung cấp năng lực tìm kiếm cho ChatGPT, cho phép truy cập vào các sự kiện hiện tại, tuy nhiên tính năng này hiện yêu cầu đăng ký trả phí ChatGPT Plus.
- ChatGPT không cung cấp nguồn cho các phản hồi của mình, điều này có thể là một mối quan ngại khi không thể xác nhận độ chính xác của thông tin.
📌 Trong việc so sánh giữa ChatGPT và Copilot, mỗi chatbot có những ưu điểm riêng biệt phù hợp với nhu cầu khác nhau của người dùng. ChatGPT nổi bật với khả năng cung cấp các phản hồi chi tiết và sâu rộng, trong khi Copilot có lợi thế trong việc cung cấp thông tin cập nhật và xác nhận nguồn thông tin. Copilot, với khả năng truy cập internet miễn phí và tích hợp vào Bing, có thể trả lời các câu hỏi về tin tức hiện tại một cách hiệu quả. Tuy nhiên, để sử dụng đầy đủ tính năng của Copilot, người dùng có thể cần đăng ký trả phí ChatGPT Plus. Sự lựa chọn giữa hai chatbot này sẽ phụ thuộc vào yêu cầu cụ thể và mục đích sử dụng của mỗi người.
Citations:
[1] https://www.zdnet.com/article/chatgpt-vs-copilot/
- Gemini Ultra cho thấy tỷ lệ nội dung độc đáo cao hơn so với Perplexity Pro, có thể do khả năng paraphrasing tốt hơn hoặc tạo nội dung sáng tạo hơn, giảm nguy cơ sao chép.
- Cả Perplexity Pro và Gemini Ultra đều có hệ thống phát hiện AI từ cốt lõi để đánh giá tính độc đáo của nội dung, giúp tránh sao chép và bảo vệ uy tín.
- Cả hai nền tảng đều cung cấp công cụ để tăng cường SEO, với Perplexity Pro tích hợp từ khóa LSI và thực thể một cách mượt mà, trong khi Gemini Ultra tập trung vào việc cập nhật theo thuật toán tìm kiếm mới nhất.
- Cả hai đều có công cụ tạo hình ảnh, cho phép tạo ra hình ảnh phù hợp và thu hút người xem.
- Gemini Ultra tạo ra nội dung dài hơn với ít yêu cầu hơn so với Perplexity Pro, cho thấy hiệu quả trong việc sản xuất nội dung dài hơn hoặc với ít đầu vào.
📌 Trong việc lựa chọn giữa Perplexity Pro và Gemini Ultra cho nhu cầu tạo nội dung, điều quan trọng là xác định tính năng cần thiết cho mục tiêu cụ thể của bạn. Gemini Ultra nổi bật với khả năng tạo ra nội dung độc đáo và dài hơn, trong khi Perplexity Pro mạnh mẽ trong việc tích hợp SEO và tạo hình ảnh. Cả hai đều đóng vai trò quan trọng trong việc tránh sao chép và tối ưu hóa nội dung cho công cụ tìm kiếm. Gemini Ultra tập trung vào việc cập nhật theo thuật toán tìm kiếm mới nhất.
Citations:
[1] https://www.geeky-gadgets.com/perplexity-pro-vs-gemini-ultra-compared-for-writing-content-creation/
- Copilot Pro và ChatGPT Plus đều có giá đăng ký hàng tháng là 20 đô la và có sẵn trên toàn cầu.
- Copilot Pro cung cấp một bộ tính năng toàn diện vượt trội so với ChatGPT Plus, bao gồm tích hợp mạch lạc với Microsoft 365 cho phép tạo bài thuyết trình Powerpoint, tài liệu Word, và công thức Excel một cách hiệu quả.
- Copilot Pro cũng được tích hợp trực tiếp vào Windows trên PC hoặc laptop, điều này có thể hữu ích cho một số người dùng.
- ChatGPT Plus nổi bật với việc cung cấp một lựa chọn đa dạng các mô hình GPT công cộng và giao diện người dùng thân thiện hơn.
- ChatGPT Plus có khả năng áp dụng các rào cản hội thoại một cách toàn diện trên tất cả các tương tác, một tính năng mà Copilot Pro yêu cầu cấu hình lại thủ công cho mỗi cuộc trò chuyện mới.
- Sự lựa chọn giữa Copilot Pro và ChatGPT Plus có thể phụ thuộc vào việc bạn ưu tiên tích hợp với sản phẩm của Microsoft hay nhu cầu hỗ trợ lập trình nâng cao và trải nghiệm người dùng mượt mà.
📌 Trong quyết định giữa Copilot Pro và ChatGPT Plus, yếu tố quan trọng nhất có thể là sở thích cá nhân và yêu cầu cụ thể của người dùng. Với giá đăng ký hàng tháng là 20 đô la và sự hiện diện toàn cầu, cả hai dịch vụ đều mang lại giá trị đáng kể. Copilot Pro nổi bật với tích hợp sâu vào hệ sinh thái Microsoft 365 và Windows, làm cho nó trở thành lựa chọn ưu tiên cho những người yêu thích Microsoft và những người dùng cần tích hợp mạnh mẽ với các ứng dụng văn phòng. Mặt khác, ChatGPT Plus thu hút người dùng với giao diện thân thiện và khả năng cung cấp một loạt các mô hình GPT công cộng, cũng như áp dụng các rào cản hội thoại một cách toàn diện.
Citations:
[1] https://www.xda-developers.com/copilot-pro-vs-chatgpt-plus/
- Trí tuệ nhân tạo (AI) đã thay đổi cách chúng ta làm việc và giải trí, cho phép hầu như bất kỳ ai cũng có thể viết mã, tạo nghệ thuật, và thậm chí đầu tư.
- Công cụ AI tạo sinh như ChatGPT cung cấp khả năng tạo nội dung chất lượng tốt từ một lời nhắc đơn giản.
- Microsoft đã thêm GPT-4 vào Bing và đổi tên thành Copilot, OpenAI đã thêm các khả năng mới vào ChatGPT, và Bard đã được tích hợp vào hệ sinh thái Google và được đổi tên thành Gemini.
- Copilot có thể truy cập internet để cung cấp thông tin mới hơn, kèm theo liên kết nguồn, khác biệt với phiên bản miễn phí của ChatGPT chỉ giới hạn ở việc tạo văn bản theo phong cách hội thoại với thông tin đến đầu năm 2022.
- Gemini cung cấp câu trả lời nhanh chóng và chính xác hơn theo thời gian, mặc dù không nhanh hơn ChatGPT Plus nhưng có thể nhanh hơn trong một số trường hợp.
📌 Trong bối cảnh AI tạo sinh đang ngày càng phát triển và ảnh hưởng đến nhiều lĩnh vực của cuộc sống, việc so sánh giữa ChatGPT, Microsoft Copilot và Gemini trở nên quan trọng để người dùng có thể chọn lựa công cụ phù hợp nhất với nhu cầu của mình. Mỗi công cụ có những ưu điểm riêng biệt: Copilot với khả năng truy cập thông tin mới hơn qua internet, ChatGPT nổi bật với khả năng tạo văn bản chất lượng từ lời nhắc đơn giản, và Gemini nhanh chóng cung cấp câu trả lời chính xác. Sự đa dạng này đảm bảo rằng người dùng có thể tìm thấy một công cụ phù hợp với mục đích sử dụng cụ thể của họ, từ viết mã đến tạo nghệ thuật hay xây dựng CV.
Citations:
[1] https://www.zdnet.com/article/chatgpt-vs-microsoft-copilot-vs-gemini-which-is-the-best-ai-chatbot/
Mô hình AI mới của Trung Quốc, Spark v3.5 của iFlytek, được cho là vượt trội hơn GPT-4 Turbo của OpenAI trong nhiều lĩnh vực chính bao gồm toán học và các nhiệm vụ dựa
AI, iFlytek, Spark v3.5, OpenAI, GPT-4 Turbo, ngôn ngữ, toán học, mã hóa, công nghệ Trung Quốc.
Mô hình AI Trung Quốc Spark v3.5 vượt trội hơn OpenAI GPT-4 Turbo.
- Mô hình AI mới của Trung Quốc, Spark v3.5 của iFlytek, được cho là vượt trội hơn GPT-4 Turbo của OpenAI trong nhiều lĩnh vực chính bao gồm toán học và các nhiệm vụ dựa trên ngôn ngữ
- Spark v3.5 cũng được cho là tốt hơn một chút so với GPT-4 Turbo trong các nhiệm vụ đa phương tiện, theo Chủ tịch iFlytek Liu Qingfeng
- GPT-4 Turbo là phiên bản nâng cấp của GPT-4, được sử dụng để cung cấp năng lực cho ChatGPT, và được coi là một trong những công cụ AI mạnh mẽ nhất kể từ khi được ra mắt vào tháng 11 năm 2023
- Không có phương pháp chuẩn hóa nào để so sánh các mô hình ngôn ngữ lớn (LLMs) với nhau, cũng như không có cơ sở dữ liệu công khai nào so sánh các hệ thống AI sở hữu khác nhau.
- Google đã tiết lộ vào tháng 12 năm 2023 rằng mô hình LLM mới của họ, Gemini, đã vượt trội hơn phiên bản chuẩn của GPT-4 và các mô hình hàng đầu khác trong 30 trong số 32 tiêu chuẩn học thuật được sử dụng trong nghiên cứu và phát triển AI
- Spark v3.5 có thể tổng hợp giọng nói mang lại các cảm xúc, âm điệu và mô hình phát âm khác nhau
- Công cụ AI này đã được đào tạo trong 90 ngày trên một nền tảng tính toán có tên "Feixing No. 1"
📌 Spark v3.5, mô hình AI mới của Trung Quốc, đã chứng minh khả năng vượt trội so với GPT-4 Turbo của OpenAI trong nhiều lĩnh vực chính, bao gồm toán học và các nhiệm vụ dựa trên ngôn ngữ. Đặc biệt, Spark v3.5 còn có khả năng tổng hợp giọng nói mang lại các cảm xúc, âm điệu và mô hình phát âm khác nhau, một bước tiến đáng kể trong lĩnh vực AI. Công cụ này đã được đào tạo trong 90 ngày trên nền tảng tính toán "Feixing No. 1", cho thấy sự tiến bộ và đầu tư mạnh mẽ của Trung Quốc trong lĩnh vực công nghệ AI
Details:
- Perplexity AI và ChatGPT là hai mô hình ngôn ngữ AI hàng đầu, mang lại cho người dùng nhiều khả năng có thể thay đổi cách chúng ta tương tác với máy móc.
- Về chi phí, cả hai nền tảng đều phục vụ cho người dùng quan tâm đến ngân sách của họ. Perplexity AI Pro có mô hình giá cả có thể thu hút những người muốn tiết kiệm tiền, trong khi ChatGPT Plus hấp dẫn những người thích dịch vụ có cơ sở người dùng rộng hơn và tên tuổi đã được thiết lập trên thị trường.
- Mặc dù Perplexity AI có thể không cung cấp mức độ tùy chỉnh trong hướng dẫn hoặc mô hình như một số người dùng có thể mong muốn, nhưng nó bù đắp cho điều này bằng một bộ công cụ toàn diện phục vụ cho nhiều ứng dụng. Perplexity AI đặc biệt giỏi trong việc xử lý các nhiệm vụ lập trình và năng suất.
- Các tính năng của nó được thiết kế để tăng cường hiệu suất và sản lượng của bạn, làm cho nó trở thành một đối thủ mạnh mẽ cho những người tập trung vào các lĩnh vực này[1].
📌 Perplexity AI và ChatGPT là hai mô hình ngôn ngữ AI hàng đầu, cung cấp nhiều khả năng cho người dùng. Trong khi Perplexity AI Pro có mô hình giá cả hấp dẫn cho những người muốn tiết kiệm, ChatGPT Plus lại thu hút những người thích dịch vụ có cơ sở người dùng rộng hơn và tên tuổi đã được thiết lập. Perplexity AI, mặc dù có thể không cung cấp mức độ tùy chỉnh như một số người dùng mong muốn, nhưng lại có một bộ công cụ toàn diện, đặc biệt giỏi trong việc xử lý các nhiệm vụ lập trình và năng suất.
📌 Zuckerberg đang định hình Meta thành công ty dẫn đầu trong lĩnh vực AI, với mục tiêu phát triển AI tổng quát và tích hợp vào các sản phẩm của Meta. Dự án này đòi hỏi một khoản đầu tư cơ sở hạ tầng lớn, với vốn đầu tư lên đến 37 tỷ USD. Công ty cũng đang tìm cách tận dụng lợi thế từ dữ liệu người dùng riêng biệt và mô hình Llama mã nguồn mở để cạnh tranh với các đối thủ như Google và Microsoft. Sự tự tin của Zuckerberg vào dữ liệu huấn luyện của Meta và việc công bố cổ tức tiền mặt đầu tiên cho thấy Meta đang chơi để thắng trong cuộc đua AI này, mặc dù vẫn còn những thách thức liên quan đến quyền riêng tư người dùng và việc so sánh với dữ liệu từ Google.
📌 Cả Midjourney và DALL-E đều mang lại những lựa chọn mạnh mẽ cho việc tạo ảnh AI, tùy thuộc vào nhu cầu và mục đích sử dụng của người dùng. Midjourney thích hợp hơn cho những người dùng cần sự tùy chỉnh cao và chất lượng thiết kế, trong khi DALL-E cung cấp một lựa chọn dễ dàng hơn cho việc tạo ảnh đại chúng. Lựa chọn giữa hai công cụ này sẽ phụ thuộc vào yêu cầu cụ thể về chất lượng ảnh, tính năng chỉnh sửa và khả năng triển khai.
📌 Perplexity AI tỏa sáng như một lựa chọn nổi bật trên thị trường công cụ tìm kiếm và AI trò chuyện, mang lại lợi thế rõ ràng so với Bard và ChatGPT bằng cách tập trung vào cung cấp thông tin chính xác và đáng tin cậy từ nhiều nguồn. Khác biệt lớn nhất của Perplexity AI là khả năng cho phép người dùng truy vấn thông tin thời gian thực và chọn lọc nguồn dữ liệu, từ Reddit đến bài báo học thuật, giúp tối ưu hóa quá trình tìm kiếm và loại bỏ thông tin không liên quan. Trong khi Bard mạnh về khả năng sáng tạo và ChatGPT nổi bật với đối thoại giống như con người và khả năng tạo ra nhiều định dạng văn bản, Perplexity AI vượt trội trong việc tìm kiếm và phân tích dữ liệu chuyên sâu, nhờ vào việc tích hợp các mô hình AI tiên tiến như GPT-3.5 và GPT-4. Tính năng co-pilot của Perplexity AI, với cách tiếp cận tương tác và cá nhân hóa, cung cấp cho người dùng cái nhìn sâu sắc và tổng hợp về chủ đề họ quan tâm, điều mà các đối thủ không thể cung cấp.
📌 Code Llama 70B là mô hình ngôn ngữ lớn mới do Meta phát hành, đã đánh bại ChatGPT-4 của OpenAI trong các tác vụ lập trình và mã hóa, với ba phiên bản chuyên biệt để đáp ứng các nhu cầu mã hóa khác nhau. Code Llama 70B đạt điểm cao hơn ChatGPT-4 trong bài kiểm tra HumanEval, một bộ sưu tập các bài toán mã hóa được sử dụng để đánh giá trình độ của các mô hình mã hóa. Phiên bản dành riêng cho Python được tinh chỉnh để hiểu và tạo mã trong ngôn ngữ lập trình phổ biến này với độ chính xác cao. Phiên bản hướng dẫn được thiết kế để tuân theo và thực hiện các hướng dẫn bằng ngôn ngữ tự nhiên với độ chính xác cao, giúp các nhà phát triển dễ dàng chuyển ý tưởng của họ thành mã.
📌 Google Bard với Gemini đã đạt được hiệu suất tương đương ChatGPT, xếp thứ hai trên bảng xếp hạng chỉ sau GPT-4-Turbo. Bard sử dụng phiên bản mới của mô hình trí tuệ nhân tạo Gemini Pro, được ra mắt vào tháng 12 năm 2023. Phiên bản này được cải tiến đáng kể so với phiên bản trước, giúp Bard có thể xử lý thông tin và tạo ra phản hồi tốt hơn. Trong thử nghiệm của Tom's Guide, Bard đã vượt trội so với phiên bản miễn phí của ChatGPT.
📌 Công trình nghiên cứu giới thiệu MATHVISTA, một bộ benchmark đánh giá khả năng suy luận toán học trong các tình huống hình ảnh, đã hiển thị sự cần thiết của việc kết hợp khả năng nhận thức hình ảnh vào AI. GPT-4 không hỗ trợ hình ảnh chỉ đạt 29.2% độ chính xác, trong khi Bard đạt 34.8%. Phiên bản mới nhất, GPT-4V, đạt 49.9% độ chính xác trong khi hiệu suất của con người là 60.3%. Kết quả này cho thấy sự tiến bộ đáng kể trong việc phát triển các mô hình AI Multimodal, với Bard và GPT-4V dẫn đầu trong việc hiểu và giải quyết các vấn đề toán học phức tạp.
📌 Dữ liệu từ IBM chỉ ra sự tăng trưởng trong việc áp dụng AI ở doanh nghiệp chủ yếu do các nhà tiên phong triển khai rộng rãi. Với 42% các doanh nghiệp lớn đã triển khai AI, và 59% trong số đó đang tăng cường đầu tư, tiềm năng phát triển của AI là rõ ràng. Tuy nhiên, các thách thức như thiếu kỹ năng, độ phức tạp dữ liệu, và mối quan ngại về đạo đức vẫn là những rào cản lớn, ảnh hưởng đến 40% tổ chức đang trong giai đoạn thăm dò và thử nghiệm.
📌 Microsoft đã không thể tạo ra ảnh hưởng đáng kể trong thị trường ứng dụng AI với Copilot, mặc dù cung cấp miễn phí GPT-4 trong Copilot với công nghệ mạnh mẽ. ChatGPT của OpenAI vẫn giữ vị thế dẫn đầu nhờ tích hợp và plugin mạnh mẽ, cũng như doanh thu ấn tượng từ ứng dụng di động. Sự cạnh tranh giữa Microsoft và OpenAI trong lĩnh vực AI cho thấy sự phát triển mạnh mẽ của công nghệ này và tiềm năng ứng dụng rộng rãi của nó trong tương lai.
Gemini Pro và ChatGPT-4 đều là các mô hình ngôn ngữ lớn (LLMs) tiên tiến, mở rộng giới hạn của khả năng AI. Lựa chọn giữa Gemini Pro và ChatGPT-4 thường phụ thuộc vào sở thích cá nhân và sự quen thuộc với các nền tảng. Một số người dùng có thể ưa thích giao diện trực quan của Gemini Pro, trong khi những người khác đánh giá cao khả năng tạo nội dung rộng lớn của ChatGPT-4. Quyết định không đơn giản và phụ thuộc vào nhu cầu cụ thể và mức độ thoải mái của người dùng. Hãy cùng xem xét những điểm khác biệt chính giữa hai mô hình này để bạn có thể lựa chọn hiệu quả hơn hoặc đơn giản là sử dụng cả hai tùy thuộc vào nhu cầu của bạn tại thời điểm đó:
Gemini Pro:
- Hiểu biết và tạo ra đa chức năng. Điều này có nghĩa là nó xử lý mượt mà không chỉ văn bản, mà còn hình ảnh, mã, âm thanh và video. Lý tưởng cho các nhiệm vụ đòi hỏi phân tích hoặc sáng tạo đa giác quan.
- Tích hợp đa phương tiện: Xử lý và tạo ra các loại dữ liệu khác nhau, mở cửa cho các ứng dụng sáng tạo.
- Lý luận và chính xác thực tế: Thể hiện xuất sắc trong các tiêu chuẩn lý luận và chính xác thực tế, vượt trội so với chuyên gia con người trong một số trường hợp.
- Khả năng lập trình: Hiển thị tiềm năng mạnh mẽ trong việc tạo ra và hiểu mã, hữu ích cho các nhà phát triển.
ChatGPT-4:
- Sự sáng tạo và tương tác: Tạo ra văn bản hấp dẫn và độc đáo, tham gia vào các cuộc trò chuyện và kể chuyện hấp dẫn.
- Các lệnh mở: Xử lý tốt các câu hỏi và lệnh mở, dẫn đến những phản hồi thú vị và sâu sắc.
- Tính khả dụng: ChatGPT-4 có cấp độ miễn phí công khai, làm cho nó dễ tiếp cận hơn để khám phá khả năng của nó.
Nhược điểm:
Gemini Pro:
- Phát hành hạn chế: Hiện đang ở giai đoạn beta kín, hạn chế việc truy cập và cản trở việc kiểm tra rộng rãi.
- Mô hình mới: Là một mô hình mới phát hành, tiềm năng đầy đủ của nó vẫn đang được khám phá và có thể xuất hiện những điểm yếu không lường trước được.
- Đường cong học tập đa phương tiện: Làm việc với các loại dữ liệu khác nhau có thể đòi hỏi người dùng phải đào tạo thêm so với các mô hình chỉ dựa trên văn bản.
ChatGPT-4:
- Lo ngại về chính xác thực tế: Đã bị chỉ trích vì đôi khi không chính xác về mặt thực tế và có
định kiến, đòi hỏi người dùng phải cẩn thận.
- Hạn chế đa chức năng: Chủ yếu tập trung vào văn bản, thiếu linh hoạt của khả năng hiểu biết chéo của Gemini Pro.
- Hạn chế truy cập đến các tính năng cao cấp nhất: Các tính năng GPT-4 tiên tiến nhất bị giới hạn ở các cấp độ trả phí, làm tăng chi phí.
📌 Lựa chọn giữa Gemini Pro và ChatGPT-4 phụ thuộc vào nhu cầu của bạn:
- Đa chức năng là quan trọng: Chọn Gemini Pro cho các nhiệm vụ liên quan đến hình ảnh, mã, âm thanh hoặc video, hoặc cho các dự án đòi hỏi lý luận và chính xác thực tế nâng cao.
- Tập trung vào văn bản: Chọn ChatGPT-4 cho việc viết sáng tạo, đối thoại hấp dẫn và khả năng tiếp cận các tính năng liên quan đến văn bản.
Cuối cùng, cả hai mô hình đều đại diện cho sự tiến bộ của AI. Mỗi mô hình mang đến những điểm mạnh và điểm yếu độc đáo, làm cho sự lựa chọn lý tưởng phụ thuộc vào mục tiêu cụ thể và nguồn lực của bạn.
📌 Trong thế giới mô hình ngôn ngữ AI, Google Bard và Grok AI đều có thế mạnh riêng, phục vụ nhu cầu đa dạng. Sự lựa chọn giữa hai công cụ này tùy thuộc vào yêu cầu cụ thể của người dùng. Dù bạn cần sự sáng tạo trong nội dung hay đòi hỏi sự chính xác trong lĩnh vực kỹ thuật hay khoa học, Google Bard và Grok AI có thể thay đổi cách bạn xử lý ngôn ngữ. Sự phát triển liên tục của AI, cùng với những đổi mới từ các mô hình ngôn ngữ này, hứa hẹn nhiều khả năng mới và tăng năng suất cho người dùng ở mọi lĩnh vực.
Năm 2023, cuộc đua AI của Trung Quốc dần chuyển từ việc triển khai nhanh chóng các mô hình ngôn ngữ lớn (LLM) sang tìm kiếm cơ hội thương mại hóa và khách hàng ứng dụng công nghệ.
Các công ty, trường đại học và viện nghiên cứu Trung Quốc đã ra mắt khoảng 130 LLM từ năm 2019 đến tháng 7/2023. Riêng 6 tháng đầu 2023, Trung Quốc ra mắt 64 mô hình mới, chiếm 67% tổng số LLM ra đời toàn cầu.
Sau giai đoạn phát triển nhanh chóng, Trung Quốc bước sang giai đoạn thương mại hóa và đẩy mạnh ứng dụng AI vào thực tế.
Các công ty AI tìm cách mở rộng thị trường ra nước ngoài để tạo doanh thu, trong khi chính phủ đẩy mạnh ứng dụng AI vào nhiều lĩnh vực.
Thách thức lớn nhất là làm thế nào để người dùng chấp nhận và sử dụng AI một cách rộng rãi.
✂️Cuộc đua phát triển công nghệ AI của Trung Quốc chuyển hướng từ sản xuất mô hình sang thương mại hóa và áp dụng vào thực tiễn. Riêng 6 tháng đầu 2023, Trung Quốc ra mắt 64 mô hình mới, chiếm 67% tổng số LLM ra đời toàn cầu.
📌 Midjourney 6 và DALL-E 3 đang thay đổi bộ mặt của nghệ thuật tạo hình bằng AI. Sự lựa chọn giữa hai công cụ này sẽ phụ thuộc vào mục đích nghệ thuật và ưu tiên của người dùng, từ đó mở ra một thế giới nghệ thuật AI ngày càng đa dạng và thân thiện với người dùng.
📌 ChatGPT-4 và Grok AI đều là những thành tựu nổi bật trong lĩnh vực trí tuệ nhân tạo, mỗi công nghệ mở ra triển vọng và ứng dụng mới cho tương lai. Grok AI là hệ thống AI chuyên biệt, được thiết kế để giải quyết vấn đề cụ thể trong các ngành như y tế và tài chính. ChatGPT-4 học từ dữ liệu internet, còn Grok AI sử dụng dữ liệu và phương pháp học tập đặc thù cho từng lĩnh vực.
Giá cả:
Sử dụng:
Sức mạnh:
Sử dụng thương mại:
Nhược điểm:
📌Midjourney mạnh mẽ và linh hoạt hơn nhưng đi kèm với giá cao. DALL-E 3 dễ sử dụng hơn và có sẵn miễn phí ở một số nơi. Nếu mới làm quen với tạo hình ảnh AI, hãy thử DALL-E 3; nếu muốn tạo hình ảnh chất lượng cao với nhiều tự do, Midjourney là lựa chọn tốt nhất.
Claude cung cấp một phiên bản miễn phí và gói Pro $20/tháng cho phép sử dụng nhiều hơn và ưu tiên truy cập tính năng mới. Claude có thể thực hiện các nhiệm vụ tương tự như ChatGPT nhưng không thể truy cập internet, ngay cả khi sử dụng gói trả phí. Tuy không thể tạo hình ảnh hay truy cập nguồn mở, nhưng Claude vẫn được đánh giá cao về các kỹ thuật đào tạo an toàn hơn.
Kết luận: Claude AI phát triển bởi Anthropic, đáng chú ý với cách tiếp cận an toàn AI, đảm bảo tính hữu ích và trung thực. Với đầu tư lớn từ Google và Amazon, Claude tuy không thể truy cập internet nhưng vẫn cung cấp các dịch vụ chatbot mạnh mẽ, có khả năng nhớ và xử lý thông tin trong các cuộc trò chuyện dài hơn ChatGPT.
- Mixtral 8X7B là AI tạo sinh với công nghệ tiên tiến, cạnh tranh với các mô hình như GPT3.5.
- Mô hình dựa trên SMoE, hỗ trợ hiểu biết sâu sắc về ngữ cảnh với khả năng xử lý 32k token.
- Hỗ trợ đa ngôn ngữ: tiếng Anh, Pháp, Ý, Đức, và Tây Ban Nha.
- Nổi bật với khả năng tạo mã code, tăng năng suất và giảm lỗi cho lập trình viên.
- Inference speed nhanh gấp sáu lần, thúc đẩy tích hợp AI vào công việc đòi hỏi thời gian thực.
- Có tỷ lệ hiệu suất chi phí ấn tượng, giúp đầu tư vào AI hiệu quả mà không làm tăng chi phí.
- Mô hình nguồn mở dưới giấy phép Apache 2.0, thúc đẩy sự đổi mới và ứng dụng đa dạng.
Mixtral 8X7B không chỉ là một bước tiến trong lĩnh vực AI tạo sinh mà còn là một lựa chọn kinh tế cho các doanh nghiệp và nhà phát triển. Với khả năng xử lý ngôn ngữ mạnh mẽ, tốc độ nhanh chóng và mô hình nguồn mở, Mixtral 8X7B hứa hẹn sẽ có vai trò quan trọng trong việc chuyển đổi các ngành công nghiệp bằng AI.
Mixtral 8X7B - AI tạo sinh tiên tiến cho lập trình viên và ngành công nghiệp đa ngôn ngữ.
"Mixtral 8X7B, AI tạo sinh, mô hình SMoE, ngôn ngữ đa dạng, tạo mã code, inference speed nhanh, nguồn mở Apache 2.0"
AI tạo sinh Mixtral 8X7B: Hiệu suất vượt trội, nguồn mở và đa ngôn ngữ
- Alibaba Cloud, một chi nhánh của tập đoàn Alibaba, đã công bố công cụ AI mới I2VGen-XL, có khả năng chuyển đổi văn bản thành video.
- Mô hình I2VGen-XL sử dụng kỹ thuật cascaded diffusion để tạo video có độ chính xác ngữ nghĩa cao và mạch lạc về mặt nội dung.
- Video được tạo ra ở độ phân giải lên đến 1280x720 pixels.
- Để đào tạo mô hình, Alibaba Cloud đã sử dụng 35 triệu cặp văn bản-video và 6 tỷ cặp văn bản-hình ảnh.
- Việc phát triển mô hình này diễn ra trong bối cảnh cạnh tranh công nghệ AI toàn cầu, đặc biệt giữa Mỹ và Trung Quốc, với các hạn chế thương mại và nỗ lực tự cường công nghệ.
Kết luận: Công cụ I2VGen-XL của Alibaba Cloud đánh dấu bước tiến quan trọng trong cuộc đua AI toàn cầu, với việc sử dụng dữ liệu lớn gồm 35 triệu cặp văn bản-video và 6 tỷ cặp văn bản-hình ảnh để tạo ra video có độ chính xác cao, góp phần cạnh tranh trong lĩnh vực AI giữa Mỹ và Trung Quốc.
- AMD ngày càng khẳng định vị thế khi MI300X cho hiệu suất cao hơn 30% so với H100 của Nvidia.
- MI300X sử dụng dataset FP16 trong khi Nvidia sử dụng FP8 với TensorRT-LLM, chỉ tương thích với sản phẩm của hãng.
- AMD đã thực hiện các bài test đối đầu với Nvidia, sử dụng cùng kịch bản kiểm tra và đã tối ưu hóa, nhằm chứng minh hiệu suất ưu việt của MI300X.
- Công ty áp dụng các tối ưu hóa mới và tính toán độ trễ trong khi thử nghiệm, phản ánh môi trường thực tế hơn so với chỉ số thông lượng của Nvidia.
- AMD nhấn mạnh rằng việc chuyển từ FP16 sang FP8 đòi hỏi ngành công nghiệp phải từ bỏ hệ thống nguồn mở vLLM để sử dụng TensorRT-LLM.
Cuộc chiến về hiệu suất giữa AMD và Nvidia tiếp tục nóng lên với việc AMD tung ra MI300X, với hiệu suất vượt trội 30% so với H100 của Nvidia. Sự cạnh tranh không chỉ dừng lại ở con số mà còn ở việc sử dụng các chuẩn dữ liệu và kịch bản kiểm tra, nơi AMD đã chứng minh được ưu điểm vượt trội của mình thông qua việc tối ưu hóa và tính toán độ trễ.
- Bài báo so sánh ERNIE Bot 4.0 của Baidu và GPT-4 của OpenAI. ERNIE 4.0 được CEO Baidu, tỷ phú Robin Li, khẳng định không hề thua kém GPT-4.
- ERNIE chủ yếu hỗ trợ tiếng Trung, trong khi GPT-4 tối ưu cho tiếng Anh nhưng cũng có thể xử lý các ngôn ngữ khác.
- Trong các kiểm tra, ERNIE cho thấy hiểu biết về các sự kiện hiện tại như tình hình của Taylor Swift, sự thay đổi bộ trưởng quốc phòng Trung Quốc và cái chết của diễn viên "Friends" Matthew Perry.
- GPT-4 lại cung cấp thông tin lỗi thời, dựa trên dữ liệu cập nhật lần cuối vào tháng 4 năm 2023.
Kết luận: Báo cáo so sánh giữa ERNIE Bot 4.0 và GPT-4 cho thấy khả năng cập nhật thông tin hiện đại ưu việt của ERNIE, trong khi GPT-4 cung cấp dữ liệu cũ. ERNIE xuất sắc trong việc nhận diện và cung cấp thông tin về các sự kiện gần đây, phản ánh tính năng cập nhật liên tục và sự chính xác trong dữ liệu.
- Google hướng đến phát triển AI tạo sinh Gemini với các mục tiêu chính: phát triển AI đạo đức, cải thiện trải nghiệm người dùng, đổi mới nghiên cứu, tích hợp sản phẩm, tiếp cận toàn cầu, phát triển bền vững, hợp tác, giải quyết thách thức toàn cầu, bảo mật dữ liệu và thích ứng với quy định.
- Google nhấn mạnh vào việc xây dựng nguyên tắc sử dụng AI đạo đức, bao gồm việc thiết lập hướng dẫn chi tiết, đảm bảo công bằng và bảo mật thông tin cá nhân.
- Gemini AI nhằm nâng cao trải nghiệm người dùng qua khả năng xử lý ngôn ngữ tự nhiên, tích hợp chặt chẽ với các dịch vụ của Google.
- Google cam kết đổi mới trong nghiên cứu AI, phát triển các thuật toán ML tiên tiến và nâng cao công nghệ nhận dạng hình ảnh và hiểu ngôn ngữ tự nhiên.
- Gemini AI được tích hợp vào nhiều sản phẩm và dịch vụ, nhằm mục tiêu làm cho AI trở thành phần không thể thiếu trong trải nghiệm người dùng.
- Google tập trung vào mục tiêu tiếp cận và hòa nhập toàn cầu, làm cho AI phù hợp với nhu cầu đa dạng của người dùng trên khắp thế giới.
- Phát triển AI bền vững và giảm thiểu tác động môi trường là một phần trong cam kết của Google.
- Google tìm kiếm cơ hội hợp tác với các tổ chức giáo dục, công nghiệp và chính phủ để cùng nhau thúc đẩy sự phát triển của AI.
- Google sử dụng AI để giải quyết các vấn đề lớn như chăm sóc sức khỏe, giáo dục và biến đổi khí hậu.
- Đảm bảo an toàn dữ liệu và quyền riêng tư là một phần không thể thiếu trong quá trình phát triển Gemini AI.
Tóm lại, Google đặt ra các mục tiêu quan trọng cho Gemini AI nhằm định hình tương lai của công nghệ AI. Với những cam kết về đạo đức, trải nghiệm người dùng, đổi mới nghiên cứu, tích hợp sản phẩm, tiếp cận toàn cầu, phát triển bền vững, hợp tác, giải quyết thách thức toàn cầu và bảo mật dữ liệu, Google không chỉ muốn cải tiến các dịch vụ của mình mà còn nhắm đến việc tạo ra ảnh hưởng tích cực đối với xã hội và môi trường.
- ByteDance, công ty mẹ của TikTok, đã sử dụng bí mật công nghệ của OpenAI để phát triển một mô hình ngôn ngữ lớn (LLM) cạnh tranh, vi phạm điều khoản dịch vụ của OpenAI.
- Dự án này, có tên mã là Project Seed, đã dựa vào API của OpenAI trong mọi giai đoạn phát triển, bao gồm việc đào tạo và đánh giá mô hình.
- Các nhân viên ByteDance đã thảo luận về cách "whitewash" bằng cách "data desensitization" để che giấu việc sử dụng không đúng cách.
- Việc sử dụng API của OpenAI đã trở nên phổ biến đến mức nhân viên Project Seed thường xuyên đạt giới hạn cho phép sử dụng API.
- Microsoft, nền tảng mà ByteDance thông qua để truy cập công nghệ của OpenAI, cũng có chính sách cấm sử dụng sản phẩm của họ để phát triển AI cạnh tranh.
- Kết luận: Việc ByteDance sử dụng bí mật công nghệ của OpenAI để xây dựng một đối thủ cạnh tranh cho thấy cuộc đua phát triển AI tạo sinh đang làm mờ đi các ranh giới đạo đức. Hành động này không những vi phạm điều khoản dịch vụ mà còn phản ánh áp lực cạnh tranh cao trong ngành công nghiệp AI.