Financial Times đã kiểm tra hiệu suất các công cụ AI phổ biến gồm ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google), Perplexity, Microsoft 365 và Apple Intelligence qua nhiều tác vụ văn phòng thường ngày.
Tóm tắt tin tức: Gemini cung cấp nội dung mơ hồ; Claude cho kết quả lộn xộn với dự báo thời tiết và sự kiện lễ hội. Perplexity đưa ra 5 bản tin chính cùng liên kết nguồn, còn ChatGPT chia nhỏ tin theo vùng và lĩnh vực, trong đó có sự kiện địa phương ở San Francisco – hữu ích và chi tiết hơn.
Viết email từ ghi chú phỏng vấn: Apple Intelligence (dùng ChatGPT) cho kết quả mạch lạc nhất, chia nội dung thành 4 điểm chính. Gemini liệt kê bằng gạch đầu dòng nhưng còn chung chung. Microsoft 365 viết thiên về suy nghĩ cá nhân và thiếu định hướng hành động rõ ràng.
Tóm tắt họp: Gemini tóm tắt hiệu quả nhưng mắc lỗi nhận diện người và từ ngữ chuyên ngành. Microsoft 365 cung cấp bản tóm tắt theo tiêu đề, có timestamp và bước tiếp theo – tuy nhiên lặp lại nội dung cũ và cũng sai tên hội nghị.
Đặt nhà hàng và lên kế hoạch du lịch: OpenAI’s Operator xử lý nhanh hơn, nhưng chưa nhận diện đầy đủ yêu cầu (ví dụ Eurostar). Claude’s Computer Use – chỉ dành cho nhà phát triển – hiệu quả hơn khi tìm vé tàu và bay, nhưng mất thời gian và thao tác nhiều hơn con người.
Tạo nội dung mạng xã hội bằng AI: Synthesia tạo avatar doanh nghiệp khá thật nhưng đòi hỏi thao tác thủ công nhiều. Pika chuyển ảnh tĩnh thành video AI độc đáo cho mạng xã hội. Meta AI thiên về sáng tạo, nhưng ít phù hợp cho mục đích công việc.
📌 Cuộc thử nghiệm cho thấy mỗi công cụ AI có điểm mạnh riêng: ChatGPT nổi bật về tóm tắt và cấu trúc email, Microsoft 365 và Gemini hiệu quả trong họp hành, Operator dẫn đầu trong xử lý tự động qua trình duyệt, còn Pika phù hợp sáng tạo mạng xã hội. Tuy nhiên, vẫn còn lỗi nhận diện và thao tác phức tạp – tiềm năng AI agent còn lớn nhưng cần cải thiện cá nhân hóa và độ chính xác.
https://www.ft.com/content/9a1736aa-45be-4f54-b05b-468e04ed8b4a
#FT
Financial Times đã thử nghiệm các ứng dụng hàng đầu từ OpenAI, Anthropic, Google và nhiều hãng khác với các yêu cầu viết email, đặt vé du lịch và tóm tắt tin tức
© Freya Hyde/FT montage/Dreamstime
Cristina Criddle
Xuất bản cách đây 9 giờ
Các công ty công nghệ đang chạy đua phát triển các ứng dụng AI để cải thiện năng suất làm việc bằng cách hỗ trợ một số tác vụ thường ngày hoặc nhàm chán.
Financial Times đã thử nghiệm một số ứng dụng phổ biến nhất, cả miễn phí và trả phí, sử dụng sản phẩm từ các công ty AI bao gồm OpenAI, Anthropic và Perplexity, cùng các tập đoàn Big Tech như Google, Microsoft và Apple.
Các công cụ này đều có sẵn rộng rãi, đã cung cấp cho người lao động sự hỗ trợ trong các tác vụ thường ngày, mặc dù nhiều ứng dụng nâng cao hơn vẫn đang được phát triển và cải thiện. Người dùng có thể trả phí đăng ký để có hiệu suất tốt hơn hoặc truy cập nhiều tính năng đặc biệt hơn.
Tôi đã so sánh cách các công cụ hoàn thành một số tác vụ điển hình mà nhân viên văn phòng có thể thực hiện. Đây là kết quả.
Sử dụng: Gemini của Google, Perplexity, Claude của Anthropic và ChatGPT của OpenAI vào ngày 14 tháng 3
Tôi hỏi mỗi công cụ: "Tin tức hôm nay có gì?" mà không cung cấp thêm thông tin.
Gemini của Google đưa ra các bản tóm tắt rất chung chung về sự kiện hàng ngày thay vì tiêu đề cụ thể. "Tin tức chính" bao gồm "diễn biến đang diễn ra trong cuộc chiến Nga-Ukraine" và "báo cáo về hoạt động ngoại giao ở Trung Đông". Không có chi tiết và lợi ích rất hạn chế.
Perplexity chọn 5 tin tức cụ thể, bao gồm khả năng chính phủ Mỹ đóng cửa và việc đảo ngược các sáng kiến khí hậu của Tổng thống Donald Trump. Công cụ này đưa ra bản tóm tắt tốt về chúng, liên kết đến các nguồn tin tức bên ngoài và cung cấp danh sách gạch đầu dòng tiện dụng về các tiêu đề cho các câu chuyện bổ sung.
Claude của Anthropic đưa ra 4 tiêu đề mơ hồ, báo cáo thời tiết và danh sách ngày sắp tới hơi ngẫu nhiên bao gồm lễ St Patrick's Day, giải bóng rổ và thời hạn khai thuế sắp tới.
ChatGPT của OpenAI chia bản tóm tắt thành tin tức khu vực và quốc gia, cũng như thể thao, thời tiết và sự kiện địa phương đang diễn ra tại San Francisco, nơi tôi đang ở.
Ba công cụ sau đưa ra thông tin cụ thể hơn về các câu chuyện và là bản tóm tắt hữu ích hơn.
Không có phản hồi nào được cá nhân hóa theo sở thích của tôi. Tuy nhiên, với lời nhắc chi tiết hơn, tôi có thể nhận được kết quả cá nhân hóa và cụ thể hơn, chẳng hạn như tin tức công nghệ.
Sử dụng: Gemini, Microsoft 365 và Apple Intelligence (sử dụng ChatGPT)
Tôi sử dụng chuỗi ghi chú từ cuộc phỏng vấn và yêu cầu các chatbot AI soạn email cho đồng nghiệp nêu các điểm chính để chúng tôi làm việc. Các email được soạn rõ ràng, phù hợp và có giọng điệu thích hợp - mặc dù cần chỉnh sửa.
Microsoft 365 trình bày các điểm thú vị từ cuộc phỏng vấn dưới dạng đoạn văn và sử dụng câu hỏi mở để mời hợp tác về cách cấu trúc câu chuyện. Email này giống chuỗi suy nghĩ hơn là kế hoạch hành động và đưa ra các góc độ như thể chúng là ý kiến của tôi thay vì kết quả báo cáo.
Gemini tóm tắt báo cáo của chúng tôi tốt hơn, chia thành các gạch đầu dòng, mặc dù khá mơ hồ và chung chung.
Apple - sử dụng ChatGPT - cảm thấy gắn kết và hợp lý hơn, chia ghi chú phỏng vấn thành 4 điểm chính và rút ra các chủ đề chính từ các cuộc trao đổi trước đó.
Sử dụng: Gemini và Microsoft 365
Tôi kích hoạt tính năng tóm tắt cuộc họp trong cả hai công cụ, ghi lại hai cuộc gọi với đồng nghiệp và viết tổng quan về những gì đã thảo luận.
Gemini cung cấp bản tóm tắt hữu ích nhưng nhầm lẫn giám đốc sản phẩm từ một công ty với người từ Meta. Công cụ này cũng nhầm lẫn thuật ngữ "videogen", viết tắt của phần mềm tạo video, với tên công ty. Ngoài ra, công cụ tóm tắt tốt các điểm chính của cuộc trò chuyện. Công cụ nêu bật các tác vụ rõ ràng cần hoàn thành bởi những người tham dự với các hộp kiểm, rất hữu ích để tham khảo lại.
Microsoft 365 tóm tắt cuộc họp tốt, chia thành các tiêu đề phụ, mỗi tiêu đề có mã thời gian hữu ích về thời điểm các chủ đề được thảo luận trong cuộc gọi. Khi được nhắc, công cụ đưa ra các bước tiếp theo được đề xuất nhưng chúng chỉ lặp lại bản tóm tắt ở dạng ngắn gọn hơn một chút. Công cụ cũng xác định sai tên hội nghị tôi tham dự là "Human Acts" thay vì HumanX.
Sử dụng: Operator của OpenAI và Computer Use của Claude
Operator và Computer Use là ví dụ về các ứng dụng AI tiên tiến nhất hiện có. Chúng tự động mở trình duyệt web và tìm kiếm trực tuyến giống như con người. Chúng sử dụng công cụ tìm kiếm để chọn từ kết quả hàng đầu nhằm trả lời các truy vấn.
Tôi hướng dẫn các ứng dụng đặt chỗ Noe Valley Dumpling Kitchen cho 6 người vào Chủ nhật lúc 7 giờ tối. Sau đó tôi đưa ra yêu cầu chi tiết hơn để sắp xếp và so sánh chi phí chuyến bay từ Barcelona đến London, chuyến bay hoặc Eurostar từ London đến Amsterdam và chuyến bay từ Amsterdam đến San Francisco.
Operator hoàn thành việc đặt nhà hàng tương đối nhanh, mặc dù không thể tìm thấy trang web phù hợp trong lần thử đầu tiên. Về du lịch, công cụ không xác định được rằng tôi đang tìm kiếm thông tin Eurostar cũng như chuyến bay. Tuy nhiên, công cụ cung cấp danh sách hữu ích về các tùy chọn chi phí và đề nghị hoàn tất việc đặt chỗ. Nhìn chung, công cụ nhanh hơn Computer Use và dễ hướng dẫn hơn.
Bài kiểm tra Computer Use được xây dựng bởi Anthropic dưới dạng demo vì hiện chỉ có sẵn cho các nhà phát triển, trong khi Operator có sẵn cho tất cả người dùng Mỹ ở cấp Pro.
Computer Use mất vài lần thử để xác định trang web phù hợp cho việc đặt chỗ nhà hàng. Về du lịch, công cụ hiệu quả hơn trong việc tìm kiếm chuyến bay qua Kayak, điều hướng đến trang web Eurostar và tìm kiếm tàu trực tiếp.
Cả hai đều mất nhiều thời gian hơn so với việc tôi tự làm - nhưng đây là ví dụ tốt về tác vụ tôi có thể ủy quyền để chạy nền trong khi tôi làm việc khác.
Sử dụng: Synthesia, Pika và Meta
Các công cụ trực quan hiện có sẵn rộng rãi cho người tiêu dùng, dù là phần mềm tạo video hay tạo hình ảnh, mỗi công cụ có góc độ độc đáo riêng.
Synthesia tập trung vào việc tạo avatar thực tế cho môi trường doanh nghiệp. Tôi tạo avatar của mình bằng cách tải lên video về bản thân và nhập kịch bản văn bản để đọc. Công cụ thực hiện nhanh chóng nhưng đôi khi mọi người có thể nhận ra avatar không giống thật. Đây là công cụ tốn công sức nhất trong số các công cụ được thử nghiệm nhưng tôi thấy công cụ hữu ích cho video doanh nghiệp hoặc dịch thông điệp sang các ngôn ngữ khác.
Pika nhằm vào các ứng dụng mạng xã hội và có thể sử dụng video hoặc hình ảnh cơ bản để bắt đầu. Tôi tải lên ảnh tôi trong phòng khách sạn ở Las Vegas và sau đó yêu cầu Pika điều chỉnh thành bối cảnh sòng bạc. Một lần nữa, video rõ ràng là AI nhưng hiệu ứng hình ảnh vui và siêu thực.
Meta AI cũng có tính năng "tưởng tượng" bạn trong các bối cảnh khác nhau. Tôi yêu cầu công cụ "tưởng tượng tôi là người chơi poker với bộ bài thay vì điện thoại" sau đó phải điều chỉnh lời nhắc hai lần để đặt tôi trong bối cảnh sòng bạc. Không thực tế lắm và tôi trông không mấy hài lòng với bài của mình. Đây là công cụ sáng tạo nhưng có thể không phù hợp cho công việc.
Các công cụ AI đang cải thiện hàng tháng khi các công ty cạnh tranh để có tính năng tốt hơn. Các ứng dụng hoạt động tự động cho chúng ta vẫn còn xa nhưng bạn có thể bắt đầu thấy chúng hữu ích như thế nào, đặc biệt cho các tác vụ nhàm chán hoặc lặp lại hơn. Điều đó, cộng với việc cá nhân hóa ngày càng tăng, khi các ứng dụng này bắt đầu hiểu chúng ta với tư cách người dùng hoặc có dữ liệu công ty của chúng ta, nghĩa là chúng sẽ rất mạnh mẽ.