DeepSeek - mô hình AI mạnh mẽ do Trung Quốc phát triển

- DeepSeek là mô hình AI mới được phát triển bởi một công ty công nghệ Trung Quốc, với mô hình chính là DeepSeek-V3.
- DeepSeek-V3 sử dụng kiến trúc Mixture-of-Experts (MoE), giúp nâng cao hiệu suất bằng cách chỉ kích hoạt các "chuyên gia" liên quan cho từng nhiệm vụ cụ thể.
- Mô hình này được đào tạo trên 14,8 nghìn tỷ token, với 671 tỷ tham số, mang lại khả năng xử lý mạnh mẽ và nhanh chóng.
- DeepSeek là mô hình AI mã nguồn mở, cho phép người dùng tự do khám phá, thử nghiệm và phát triển không tốn phí.
- Trong các thử nghiệm, DeepSeek đã thể hiện khả năng viết sáng tạo, hỗ trợ lập trình và làm việc năng suất một cách linh hoạt và hiệu quả.
- Khi thử viết một mô tả nhân vật, DeepSeek đã cung cấp một sản phẩm sinh động và hấp dẫn.
- Khi kiểm tra khả năng lập trình, DeepSeek đã sửa lỗi trong mã JavaScript và cung cấp giải thích rõ ràng cho người mới.
- DeepSeek cũng đã tạo ra một chương trình họp cho một dự án mới một cách mạch lạc và chuyên nghiệp.
- Mặc dù DeepSeek có nhiều ưu điểm, nó cũng gặp một số hạn chế, như đôi khi đưa ra thông tin không chính xác cho các chủ đề chuyên sâu.
- Tài liệu hỗ trợ cho DeepSeek không phong phú bằng các công cụ như GPT-4, làm khó cho người dùng mới.
- DeepSeek tỏ ra cẩn trọng khi xử lý các chủ đề nhạy cảm về chính trị và lịch sử, như vụ Thiên An Môn, nơi nó từ chối trả lời.
- Mặc dù có giới hạn trong việc thảo luận về các sự kiện lịch sử chính trị, DeepSeek vẫn là một sự lựa chọn mạnh mẽ cho các nhiệm vụ sáng tạo, lập trình và công việc năng suất.

📌 DeepSeek là một mô hình AI mạnh mẽ với 14,8 nghìn tỷ token và 671 tỷ tham số, nổi bật trong sáng tạo, lập trình và năng suất, nhưng cần cải thiện trong các chủ đề nhạy cảm và hỗ trợ người dùng.

Tôi Đã Thử Nghiệm Mô Hình AI Siêu Mạnh Mới Được Phát Triển Tại Trung Quốc
Bởi
John Awa-abuon
Được xuất bản cách đây 13 giờ

DeepSeek là gì?
Thử nghiệm DeepSeek
Điểm tốt, điểm xấu và những điều bất ngờ
Giới hạn của hội thoại mở

Trí tuệ nhân tạo đang phát triển rất nhanh, và chatbot AI DeepSeek được phát triển tại Trung Quốc là một trong những "ông lớn" mới đang gây chú ý. DeepSeek có rất nhiều ưu điểm như phản hồi nhanh và chi tiết, nhưng cũng có một số hạn chế khiến nó có thể không phải là công cụ AI mà bạn sẽ lựa chọn.

DeepSeek là gì?
Trang chủ DeepSeek
DeepSeek là một mô hình AI mạnh mẽ mới được phát triển bởi một công ty công nghệ Trung Quốc. Mô hình hàng đầu của nó, DeepSeek-V3, sử dụng kiến trúc Mixture-of-Experts (MoE) độc đáo. Hãy hình dung kiến trúc này giống như một "đội ngũ" các hệ thống AI chuyên biệt, trong đó chỉ những chuyên gia liên quan nhất được "kích hoạt" để xử lý các nhiệm vụ cụ thể. Mỗi "chuyên gia" này là một mạng nơ-ron chuyên dụng.

DeepSeek tuyên bố rằng mô hình LLM V3 của mình được đào tạo trên 14,8 nghìn tỷ token, với 1 triệu token tương đương khoảng 750.000 từ. DeepSeek V3 cũng là một LLM khổng lồ nói chung, với 671 tỷ tham số trong kiến trúc MoE của nó, và 37 tỷ tham số trong số đó được kích hoạt cho mỗi token. Điều này có nghĩa là mỗi yêu cầu đều được xử lý với sức mạnh khổng lồ, mang lại hiệu năng nhanh hơn và hiệu quả hơn.

Ngoài ra, đây là một mô hình AI mã nguồn mở, nghĩa là bất kỳ ai cũng có thể khám phá, thử nghiệm và phát triển nó miễn phí. Điều này giúp DeepSeek khác biệt so với các đối thủ thường giới hạn mô hình của họ đằng sau các bức tường trả phí.

Thử nghiệm DeepSeek
Để đánh giá hiệu năng của DeepSeek-V3, tôi đã thử nghiệm nó trên 3 nhiệm vụ thực tế: viết sáng tạo, hỗ trợ lập trình và công việc liên quan đến năng suất. Kết quả cho thấy khả năng linh hoạt và sức mạnh thô của nó, mặc dù có một số trục trặc nhỏ.

Nhiệm vụ 1: Viết mô tả nhân vật hư cấu
Tôi yêu cầu DeepSeek viết một mô tả chi tiết về một nhân vật giả tưởng: một nữ hoàng nổi dậy lãnh đạo phong trào kháng chiến chống lại một đế chế tà ác. Đầu ra rất sống động và cuốn hút.

Hình ảnh: DeepSeek sáng tạo văn bản

Nhiệm vụ 2: Gỡ lỗi một hàm JavaScript
Tôi kiểm tra kỹ năng lập trình của DeepSeek bằng cách cung cấp cho nó một hàm JavaScript bị lỗi, có chức năng tính giai thừa của một số. Đây là đoạn mã có lỗi mà tôi đã cung cấp:

function factorial(n) {  
   if (n = 1) {  
       return 1;  
   }  
   return n * factorial(n - 1);  
} 

DeepSeek ngay lập tức phát hiện ra vấn đề: dấu bằng đơn (=) trong điều kiện đã gây ra lỗi logic. Nó cung cấp đoạn mã sửa lỗi và giải thích rõ ràng vấn đề:

Hình ảnh: DeepSeek gỡ lỗi mã

Đoạn mã sửa lỗi hoạt động hoàn hảo, và phần giải thích của DeepSeek đủ rõ ràng để người mới học JavaScript cũng hiểu được.

Nhiệm vụ 3: Năng suất—Tạo một lịch trình cuộc họp
Để thử nghiệm khả năng hỗ trợ năng suất, tôi yêu cầu DeepSeek soạn một lịch trình cuộc họp ngắn gọn cho một đội dự án về việc ra mắt một sản phẩm mới.

Hình ảnh: DeepSeek lên lịch họp

DeepSeek đã thể hiện xuất sắc trong các nhiệm vụ viết sáng tạo, lập trình và hỗ trợ năng suất, cung cấp các đầu ra được trau chuốt kỹ lưỡng. Giống như bất kỳ công cụ AI nào khác, cần phải kiểm tra lại các kết quả để đảm bảo độ chính xác, đặc biệt khi sự chính xác là yếu tố quan trọng.

Điểm tốt, điểm xấu và những điều bất ngờ
Sau khi thử nghiệm DeepSeek, một số điểm mạnh và điểm yếu nổi bật. Ngoài ra, nó cũng mang đến một vài bất ngờ không ngờ tới.

DeepSeek xử lý dễ dàng nhiều loại nhiệm vụ. Từ việc tạo ra các văn bản sáng tạo sống động đến gỡ lỗi mã phức tạp, nó thể hiện sự linh hoạt ngang ngửa với các mô hình AI hàng đầu. Kiến trúc Mixture-of-Experts của nó thực sự đáng chú ý, giúp DeepSeek nhanh mà không làm giảm chất lượng đầu ra. Ví dụ, nó tạo ra các kết quả chi tiết như mô tả nhân vật hoặc lịch trình cuộc họp chỉ trong vài giây. DeepSeek điều chỉnh giọng điệu và phong cách một cách dễ dàng. Dù làm việc với các tài liệu chính thức hay văn bản sáng tạo, nó đều tùy chỉnh phản hồi phù hợp với nhiệm vụ.

Giống như nhiều mô hình AI khác, DeepSeek thỉnh thoảng cung cấp thông tin không chính xác hoặc không đầy đủ, đặc biệt khi được hỏi về các chủ đề hiếm hoặc rất cụ thể. Ví dụ, trong một thử nghiệm liên quan đến các sự kiện lịch sử, DeepSeek tự tin đưa ra một câu trả lời sai.

Hình ảnh: DeepSeek trả lời sai thông tin

Mặc dù DeepSeek là mã nguồn mở, nhưng tài liệu hỗ trợ và hướng dẫn của nó không phong phú như các công cụ như GPT-4, khiến người dùng mới gặp khó khăn khi tận dụng hết tiềm năng của nó. Do có nguồn gốc từ Trung Quốc, một số người dùng có thể lo ngại về cách dữ liệu của họ được xử lý hoặc lưu trữ. Dù không có bằng chứng cho thấy việc lạm dụng, nhưng các mối lo này đáng được cân nhắc khi làm việc với các nhiệm vụ nhạy cảm (điều này cũng áp dụng với bất kỳ chatbot AI nào khác).

Điều đáng ngạc nhiên nhất là, dù được phát triển tại Trung Quốc, DeepSeek thể hiện sự thành thạo đáng kể về các nền văn hóa và quan điểm toàn cầu. Nó có sự hiểu biết sâu sắc về các chủ đề từ văn học châu Âu đến lịch sử châu Phi. Sự sáng tạo của DeepSeek cũng là một điểm mạnh không ngờ. Khi được yêu cầu mô tả nhân vật, không chỉ đưa ra một mô tả, mà còn tạo ra cả bối cảnh và mối quan hệ giữa nhân vật này với các nhân vật khác.

Giới hạn của hội thoại mở
Tuy nhiên, cách DeepSeek xử lý các chủ đề nhạy cảm về chính trị hoặc lịch sử cho thấy những hạn chế đáng kể liên quan đến các sự kiện lịch sử Trung Quốc. Để kiểm tra điều này, tôi đã hỏi về các sự kiện như cuộc biểu tình Thiên An Môn, Đại nhảy vọt, và vụ thảm sát Nam Kinh. Câu trả lời của DeepSeek cho thấy một cách tiếp cận thận trọng hoặc né tránh đối với các chủ đề này.

Khi được hỏi về sự kiện Thiên An Môn, DeepSeek từ chối trả lời hoàn toàn.

Hình ảnh: Phản hồi của DeepSeek về sự kiện Thiên An Môn

Để so sánh, ChatGPT đã cung cấp thêm ngữ cảnh trong câu trả lời. Dưới đây là phản hồi của ChatGPT:

Hình ảnh: Phản hồi của ChatGPT về sự kiện Thiên An Môn

Khi được hỏi về Đại nhảy vọt, lời giải thích của DeepSeek ngắn gọn và thiếu chiều sâu.

Hình ảnh: Phản hồi của DeepSeek về Đại nhảy vọt

Trong khi đó, ChatGPT đưa ra một bản tường thuật chi tiết hơn, bao gồm các sự kiện quan trọng và phân tích. Dưới đây là phản hồi của ChatGPT:

Hình ảnh: Phản hồi của ChatGPT về Đại nhảy vọt

Sự khác biệt càng rõ ràng hơn khi tôi hỏi: Có bao nhiêu dân thường Trung Quốc bị giết trong vụ thảm sát Nam Kinh? Ai chịu trách nhiệm? DeepSeek đã tránh trả lời, không đề cập đến số lượng người chết ước tính. Đây là phản hồi của DeepSeek:

Hình ảnh: Phản hồi của DeepSeek về vụ thảm sát Nam Kinh

Ngược lại, ChatGPT cung cấp một con số ước tính, đồng thời thừa nhận khó khăn trong việc xác định chính xác do sự phức tạp của lịch sử. Dưới đây là phản hồi của ChatGPT:

Hình ảnh: Phản hồi của ChatGPT về vụ thảm sát Nam Kinh

Những phản hồi này cho thấy DeepSeek hoạt động trong các giới hạn tự áp đặt, có khả năng bị ảnh hưởng bởi môi trường phát triển và các quy định liên quan. Điều này có thể là một hạn chế lớn đối với người dùng cần khám phá các chủ đề lịch sử, báo chí hoặc nghiên cứu học thuật một cách không bị kiểm duyệt.

Tuy nhiên, đối với các nhiệm vụ như viết sáng tạo, lập trình hoặc công việc liên quan đến năng suất—nơi mà các giới hạn này ít ảnh hưởng—DeepSeek vẫn là một ứng cử viên mạnh mẽ. Cuối cùng, việc liệu DeepSeek có phải là công cụ phù hợp hay không phụ thuộc vào mức độ minh bạch và tính mở mà bạn cần ở một trợ lý AI.

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo