Gemini gặp phải nhiều thách thức tương tự như Bard trước đây.
“Khi bạn tăng quy mô lên gấp 10 lần, mọi thứ sẽ sụp đổ,” Amin Vahdat, phó chủ tịch phụ trách hệ thống học máy và AI đám mây của Google, cho biết.
Khi ngày ra mắt đến gần, Vahdat đã thành lập một "phòng chiến dịch" (war room) để xử lý các lỗi và sự cố phát sinh.
Trong khi đó, đội ngũ phụ trách trách nhiệm (responsibility team) của Google DeepMind (GDM) chạy đua để kiểm tra sản phẩm. Mặc dù có sức mạnh vượt trội, Gemini vẫn đưa ra một số câu trả lời kỳ quặc.
Theo một báo cáo công khai của công ty, trước khi ra mắt, nhóm đã phát hiện ra rằng:
“Không có vấn đề nào là thảm họa,” Dawn Bloxwich, giám đốc phát triển có trách nhiệm của GDM, cho biết. Nhưng nhóm cũng không có đủ thời gian để lường trước tất cả những tình huống mà công chúng có thể tạo ra với Gemini — hoặc những bản rap điên rồ mà người dùng có thể yêu cầu nó viết.
Nếu Google muốn chậm lại và điều chỉnh, thì đây chính là thời điểm thích hợp.
OpenAI đã có lợi thế đi đầu, và làn sóng truyền thông xung quanh ChatGPT đã giúp nó trở thành cái tên quen thuộc — giống như cách Kleenex đã trở thành tên gọi chung cho khăn giấy.
ChatGPT cũng trở thành tiêu điểm của cả tiềm năng công nghệ lẫn các vấn đề xã hội đang nổi lên:
Vào tháng 5/2023, Geoffrey Hinton, một nhà khoa học AI huyền thoại của Google, đã từ chức. Ông cảnh báo về viễn cảnh mà trong đó các cỗ máy chia rẽ và tiêu diệt nhân loại bằng những thông tin sai lệch không thể phản bác và những loại chất độc tinh vi.
Ngay cả Hassabis cũng muốn có thêm thời gian để xem xét các vấn đề đạo đức. Ý nghĩa của cuộc sống, cấu trúc của xã hội — tất cả đều có thể bị đảo lộn bởi AI.
Nhưng bất chấp những lo ngại ngày càng gia tăng, Hassabis cũng muốn hoàn thành giấc mơ của mình:
Và vì thế, Google quyết định tiếp tục tiến lên.
Khi Google công bố Gemini vào tháng 12/2023, cổ phiếu của Alphabet đã tăng mạnh.
Gemini đã vượt qua ChatGPT trong 30 trên 32 bài kiểm tra tiêu chuẩn. Nó có thể:
✅ Phân tích các bài nghiên cứu và video trên YouTube.
✅ Trả lời các câu hỏi phức tạp về toán học và luật pháp.
Các nhân viên cũ và hiện tại nói với WIRED rằng đây là khởi đầu cho sự trở lại của Google.
Hassabis đã tổ chức một bữa tiệc nhỏ tại văn phòng London.
“Tôi không giỏi trong việc ăn mừng,” Hassabis nhớ lại. “Tôi luôn nghĩ về điều tiếp theo.”
Điều tiếp theo đã đến ngay trong tháng đó.
Jeff Dean biết mình đã tìm ra câu trả lời khi nhân viên mời ông tham gia vào một phòng chat mới có tên là Goldfish — một trò đùa mang tính châm biếm: Cá vàng nổi tiếng có trí nhớ ngắn hạn, nhưng nhóm của Dean đã tạo ra thứ hoàn toàn ngược lại.
Họ đã phát triển một phương pháp giúp Gemini có khả năng ghi nhớ lâu dài — vượt xa khả năng của ChatGPT.
Bằng cách phân tán việc xử lý dữ liệu qua mạng lưới chip tốc độ cao liên kết với nhau, Gemini có thể:
Kỹ thuật này được gọi là Long Context — và nó là vũ khí bí mật của Google trong cuộc đua AI.
Dean, Hassabis và Manyika đã bắt đầu lên kế hoạch để tích hợp Long Context vào các dịch vụ AI của Google, nhằm đẩy Microsoft và OpenAI xuống phía sau.
Một trong những mục tiêu hàng đầu của Manyika là tạo ra một công cụ cho phép AI:
“Thật khó để theo kịp với tất cả các bài nghiên cứu được công bố trên arXiv mỗi tuần,” Manyika nói với WIRED.
Gemini không chỉ là một mô hình ngôn ngữ mới. Nó là động cơ mới mà Pichai từng nói đến — thứ mà Google đã cần để cạnh tranh trong cuộc đua AI.
Giờ đây, Google không chỉ đang bắt kịp OpenAI — Google đang dẫn đầu.
Một năm sau thời điểm mã đỏ (code-red), triển vọng của Google đã bắt đầu sáng sủa hơn. Các nhà đầu tư đã bớt lo lắng. Bard và LaMDA giờ chỉ còn là quá khứ; cả ứng dụng và mô hình ngôn ngữ đều sẽ được gọi là Gemini.
Đội của Hsiao hiện đang đuổi kịp OpenAI với một tính năng tạo hình ảnh từ văn bản (text-to-image). Một tính năng khác, được gọi là Gemini Live, sẽ giúp Google vượt xa đối thủ bằng cách cho phép người dùng trò chuyện dài hơi với ứng dụng, giống như với một người bạn hoặc một nhà trị liệu.
Gemini với sức mạnh vượt trội đã mang lại cho các giám đốc điều hành của Google niềm tin mới.
Nhưng ngay khi các nhân viên của Google bắt đầu cảm thấy thoải mái hơn, Pichai lại ra lệnh cắt giảm chi tiêu mới.
Doanh thu từ quảng cáo đang tăng trưởng, nhưng không đủ nhanh theo kỳ vọng của Phố Wall. Trong số những người bị loại bỏ có các giám đốc phụ trách quyền riêng tư và tuân thủ — những người giám sát một số cơ chế bảo vệ người dùng.
Việc cắt giảm này đã củng cố một văn hóa mà ở đó, mối lo ngại của nhân viên vẫn được lắng nghe — nhưng không được phép cản trở tiến độ.
Đối với một số nhân viên đang hỗ trợ nhóm của Hsiao phát triển công cụ tạo hình ảnh, những thay đổi này là quá sức chịu đựng.
Bản thân công cụ này không khó để xây dựng, nhưng việc kiểm tra sức chịu đựng (stress-testing) lại là một trò chơi "thử và sai" đầy khắc nghiệt:
Chỉ một nhóm nhỏ nhân viên được quyền truy cập vào mô hình chưa được kiểm soát để thử nghiệm, vì vậy phần lớn gánh nặng rơi lên vai họ.
Khi một nhân viên phát hiện ra rằng khi được nhắc với từ khóa "rapist" (kẻ hiếp dâm), mô hình có xu hướng tạo ra hình ảnh của người da sẫm màu, họ đã yêu cầu thêm thời gian để khắc phục vấn đề này.
Nhân viên cũng khuyên nhóm phát triển ngăn người dùng tạo ra hình ảnh con người vì sợ rằng mô hình có thể tạo ra những hình ảnh gây phản cảm hoặc vô tình mang tính phân biệt chủng tộc.
Nhưng theo lời của một cựu nhân viên, “Chắc chắn có cảm giác rằng: ‘Chúng ta sẽ tung ra công cụ này bằng mọi giá.’”
Nhiều người trong nhóm thử nghiệm đã bỏ việc, cảm thấy rằng mối lo ngại của họ không được giải quyết đầy đủ.
Công cụ tạo hình ảnh ra mắt vào tháng 2/2024 như một phần của ứng dụng Gemini.
Trớ trêu thay, nó không tạo ra nhiều hình ảnh phân biệt chủng tộc hay giới tính như nhóm thử nghiệm từng lo sợ.
Thay vào đó, nó gặp vấn đề ngược lại.
Khi người dùng yêu cầu Gemini tạo “hình ảnh của một thượng nghị sĩ Hoa Kỳ từ những năm 1800”, nó đã tạo ra hình ảnh của:
Nhưng không hề có hình ảnh của một người đàn ông da trắng nào — dù vào thế kỷ 19, gần như tất cả thượng nghị sĩ Mỹ đều là người da trắng.
Một số hình ảnh khác còn gây sốc hơn — chẳng hạn như hình ảnh của những người lính Đức thời phát xít (Nazi) lại được mô tả là người da màu.
Đảng Cộng hòa trong Quốc hội đã chỉ trích “AI thiên vị” của Google.
Elon Musk liên tục đăng bài trên X (Twitter), gọi AI của Google là "phân biệt chủng tộc và phân biệt giới tính." Ông còn chỉ đích danh một thành viên trong nhóm phát triển Gemini mà ông cho là người chịu trách nhiệm về sai sót này.
Nhân viên đó đã phải đóng tài khoản mạng xã hội và thậm chí lo sợ cho sự an toàn của bản thân, theo lời kể của các đồng nghiệp.
Google nhanh chóng vô hiệu hóa khả năng tạo hình ảnh con người của Gemini. Giá cổ phiếu của Alphabet lại lao dốc một lần nữa.
Bài đăng của Musk đã kích hoạt một cuộc thảo luận căng thẳng giữa hàng chục lãnh đạo của Google.
Các phó chủ tịch và giám đốc đã bay tới London để họp trực tiếp với Hassabis.
Cuối cùng, cả đội của Hassabis (phụ trách Gemini — mô hình ngôn ngữ) và đội của Hsiao (phụ trách Gemini — ứng dụng) đã được phép tuyển dụng chuyên gia để tránh lặp lại sai lầm tương tự. 15 vị trí mới về niềm tin và an toàn (trust and safety) đã được bổ sung.
Tại Gradient Canopy, Hsiao đảm bảo rằng nhóm phát triển công cụ tạo hình ảnh có đủ thời gian để khắc phục vấn đề.
Với sự hỗ trợ từ Manyika, các nhân viên đã phát triển bộ nguyên tắc công khai cho Gemini, được thiết kế xoay quanh "bạn" — người dùng:
✅ Gemini nên "làm theo chỉ dẫn của bạn."
✅ Gemini nên "thích nghi với nhu cầu của bạn."
✅ Gemini nên "bảo vệ trải nghiệm của bạn."
Điểm quan trọng là nhấn mạnh rằng "phản hồi của Gemini không nhất thiết phản ánh quan điểm hoặc ý kiến của Google."
“Gemini là những gì bạn tạo ra từ nó.”
Đây là lớp bảo vệ nếu Gemini gặp phải những sai lầm tương tự trong tương lai.
Vào khoảng 6:30 tối một ngày tháng 3/2024, hai nhân viên của Google xuất hiện tại bàn làm việc của Josh Woodward trong khu vực màu vàng của Gradient Canopy.
Woodward là người đứng đầu Google Labs — đơn vị chịu trách nhiệm biến nghiên cứu thành các sản phẩm hoàn toàn mới.
Họ đã tạo ra một podcast có tên Westminster Watch bằng cách:
Tập podcast mở đầu với giọng Anh vui vẻ của Simon:
“Đó là một tuần sôi động nữa trong Hạ viện, với nhiều kịch tính, tranh luận và thậm chí là một chút lịch sử.”
Woodward ấn tượng. Sau đó, ông đã đi khoe về nó với mọi người — bao gồm cả Pichai.
Bên trong cơn sốt hai năm của Google để bắt kịp OpenAI
(Tiếp tục)
Công cụ tạo podcast từ văn bản, được gọi là NotebookLM Audio Overviews, đã được thêm vào danh sách các sản phẩm sẽ công bố tại hội nghị Google I/O vào tháng 5/2024.
Một nhóm nòng cốt đã làm việc ngày đêm, cả cuối tuần để kịp chuẩn bị cho sự kiện, Woodward nói với WIRED.
“Ý tôi là, vào thời điểm này, họ thực sự đã nghe hàng nghìn, hàng nghìn podcast được tạo ra bởi AI,” Woodward cho biết.
Nhưng khi sự kiện truyền thông trị giá 35 triệu USD bắt đầu, chỉ có hai thông báo khác chiếm trọn sự chú ý:
Astra — một trợ lý kỹ thuật số có khả năng phân tích video trực tiếp — tức là xử lý thế giới thực trong thời gian thực. Sergey Brin đã giới thiệu Astra cho các nhà báo với vẻ phấn khích.
Nâng cấp AI cho công cụ tìm kiếm — một tính năng được chờ đợi từ lâu trong Dự án Magi.
Đội ngũ Dự án Magi đã thiết kế tính năng AI Overviews — cho phép tổng hợp kết quả tìm kiếm và hiển thị bản tóm tắt ở phần đầu trang.
Ngay từ đầu, các nhân viên trong đội phụ trách trách nhiệm (responsible innovation) đã cảnh báo về:
Họ đã yêu cầu được giám sát chặt chẽ hơn khi dự án phát triển, nhưng đội Magi đã được tái cấu trúc và chia nhỏ — khiến việc kiểm soát khó khăn hơn.
Khi AI Overviews được tung ra, các phản hồi kỳ quặc bắt đầu xuất hiện.
Khi tìm kiếm “Tôi nên ăn bao nhiêu viên đá mỗi ngày”, người dùng nhận được câu trả lời:
“Theo các nhà địa chất học UC Berkeley, nên ăn ít nhất một viên đá nhỏ mỗi ngày.”
Trong một câu hỏi lan truyền khác, người dùng hỏi lý do tại sao phô mai không bám dính vào pizza và nhận được câu trả lời:
“Thêm khoảng 1/8 cốc keo dán không độc vào nước sốt để tạo độ bám tốt hơn.”
Những lỗi này có lời giải thích đơn giản:
Google tạm thời giảm bớt tần suất hiển thị Overviews để hiệu chỉnh lại thuật toán.
Theo Pandu Nayak, nhà khoa học trưởng phụ trách tìm kiếm của Google và là nhân viên kỳ cựu với hơn 20 năm kinh nghiệm, thì việc xảy ra lỗi là điều không thể tránh khỏi.
“Phần lớn thời gian, AI Overviews hoạt động rất tốt,” Nayak nói.
“Nhưng người dùng chỉ tập trung vào những lần nó mắc lỗi.”
Ông cho biết thêm rằng ông hoan nghênh phản hồi từ người dùng:
“Cam kết của chúng tôi là không ngừng cải thiện, vì đảm bảo rằng AI sẽ không bao giờ gặp vấn đề là điều không thể.”
Những nhân viên từng cảnh báo về vấn đề chính xác của AI cảm thấy không hài lòng vào thời điểm này.
Theo quan điểm của họ, với:
Google đã tạo ra một loạt các "máy tạo nội dung ảo tưởng" (fabrication machines).
Công ty từng đặt sứ mệnh là mở rộng quyền truy cập vào thông tin dường như giờ đây lại đang dễ dàng tạo ra các thông tin vô nghĩa hơn bao giờ hết.
Tuy nhiên, đội ngũ phát triển công cụ tìm kiếm lại cho rằng người dùng đánh giá cao tính năng AI Overviews.
Người dùng không có tùy chọn để tắt tính năng này.
Không lâu sau đó, tính năng tóm tắt bằng AI được mở rộng sang các sản phẩm khác:
✅ Google Maps — sử dụng Gemini để tổng hợp các đánh giá về doanh nghiệp.
✅ Ứng dụng thời tiết trên điện thoại Pixel — cung cấp báo cáo thời tiết do AI viết.
Trước khi ra mắt tính năng thời tiết, một kỹ sư đã đặt câu hỏi:
“Người dùng thực sự cần tính năng này sao? Các biểu đồ hiện tại chẳng phải đã đủ rồi sao?”
Giám đốc cấp cao liên quan đã ra lệnh thử nghiệm người dùng — và phản hồi từ người dùng đã quyết định:
90% người dùng tham gia thử nghiệm đã bấm "Thích."
Tháng 12/2024, đúng hai năm sau làn sóng khủng hoảng do ChatGPT gây ra, Jeff Dean đã gặp nhóm phóng viên của WIRED tại Gradient Canopy.
Ông đang trong tâm trạng rất tốt.
Chỉ vài tuần trước, các mô hình Gemini đã đứng đầu bảng xếp hạng công khai về AI.
(Một giám đốc điều hành cho biết bà đã chuyển từ thói quen gọi điện cho chị gái trong giờ đi làm sang trò chuyện với Gemini Live.)
CEO của Nvidia, Jensen Huang, gần đây đã ca ngợi NotebookLM’s Audio Overviews trong một cuộc họp cổ đông, nói rằng ông đã “dùng nó liên tục.”
Một số nhà khoa học AI hàng đầu, từng rời bỏ Google vì công ty quá thận trọng, giờ đây đã quay trở lại — trong đó có:
Hai năm sau mã đỏ (code-red), Google đã chuyển từ vị trí bị động sang vị thế dẫn đầu:
✅ Gemini vượt trội hơn ChatGPT trên nhiều mặt trận.
✅ AI Overviews được người dùng đón nhận.
✅ Astra và NotebookLM Audio Overviews mở ra những tiềm năng mới cho AI của Google.
Google không chỉ bắt kịp OpenAI — họ đã vượt lên dẫn đầu.
Bên trong cơn sốt hai năm của Google để bắt kịp OpenAI
(Tiếp tục)
Khi Jeff Dean ngồi thả lưng xuống chiếc ghế dài, ông thừa nhận rằng Google đã tính toán sai trước đây.
Dean cảm thấy nhẹ nhõm khi công ty đã vượt qua sự sợ hãi rủi ro — những vấn đề như AI "ảo tưởng" (hallucinations) — nhưng những thách thức mới đã xuất hiện.
Trong số 7 dịch vụ của Google có hơn 2 tỷ người dùng hàng tháng — bao gồm Chrome, Gmail và YouTube — tất cả đều đã bắt đầu cung cấp các tính năng dựa trên Gemini.
Dean cho biết ông, Shazeer và một đồng nghiệp khác, những người đứng đầu việc phát triển Gemini, đang phải xoay sở để cân bằng các ưu tiên khi:
Dean và Shazeer đã có thói quen gặp nhau trong một nhà bếp nhỏ tại Gradient Canopy để trao đổi ý tưởng, giữa những âm thanh ồn ào của máy xay cà phê.
Shazeer nói rằng ông rất hào hứng khi Google mở rộng trọng tâm sang lĩnh vực giúp người dùng tạo ra nội dung AI mới.
“Tổ chức thông tin rõ ràng là một cơ hội nghìn tỷ đô la, nhưng nghìn tỷ đô la không còn là điều thú vị nữa,” ông nói trên một podcast gần đây.
“Cái gì mới thực sự thú vị? Một nghìn tỷ tỷ đô la (quadrillion dollars).”
Các nhà đầu tư dường như cũng có cùng suy nghĩ.
✅ Cổ phiếu Alphabet đã gần như tăng gấp đôi so với mức thấp nhất ngay sau khi ChatGPT ra mắt.
✅ Hassabis — người hiện cũng giám sát nhóm phát triển ứng dụng Gemini của Hsiao — khẳng định rằng sự trỗi dậy của công ty chỉ mới bắt đầu.
✅ Những bước nhảy vọt như chữa khỏi bệnh ung thư bằng AI không còn xa vời.
“Chúng tôi có nền tảng nghiên cứu sâu rộng nhất và vững chắc nhất trong bất kỳ tổ chức nào — một khoảng cách rất xa,” Hassabis nói với WIRED.
Nhưng những công trình nghiên cứu tiên phong đó chỉ có giá trị nếu Google có thể biến chúng thành lợi nhuận.
Hầu hết người dùng hiện tại vẫn chưa sẵn sàng trả tiền cho các tính năng AI. Vì vậy, Google có thể sẽ áp dụng chiến lược kinh điển:
Theo dữ liệu từ Sensor Tower:
Ngoài ra, Google cũng đang đối mặt với sự cạnh tranh gay gắt từ các chatbot khác:
✅ Claude — do chính Google đầu tư vào.
✅ Copilot — của Microsoft.
✅ Grok — của Elon Musk.
✅ DeepSeek, Llama, Perplexity — được hậu thuẫn bởi các đối thủ mạnh nhất của Google.
Ngành công nghiệp AI nói chung, không chỉ riêng Google, đang phải đối mặt với một vấn đề cốt lõi:
💰 Các hệ thống AI tạo sinh đã tiêu tốn hàng tỷ USD để phát triển nhưng đến nay vẫn chưa tạo ra lợi nhuận thực sự.
💡 AI tiêu thụ khối lượng điện khổng lồ — đủ để kéo dài tuổi thọ của các nhà máy điện than và nhà máy hạt nhân cũ.
Các công ty khẳng định rằng hiệu suất đang được cải thiện mỗi ngày, và họ hy vọng có thể giảm thiểu lỗi để thu hút nhiều người dùng hơn.
Nhưng chưa ai thực sự tìm ra cách để:
Google còn đang phải đối mặt với một thách thức mà các đối thủ không gặp phải:
Các nhân viên của Hsiao trong nhóm Gemini đã phải làm việc qua cả kỳ nghỉ đông ba năm liên tiếp để theo kịp tốc độ phát triển của OpenAI.
Sergey Brin gần đây đã nói với một số nhân viên rằng 60 giờ làm việc mỗi tuần là "ngưỡng lý tưởng" để giành chiến thắng trong cuộc đua AI.
Sự sợ hãi về sa thải, kiệt sức và rắc rối pháp lý đang ám ảnh nhân viên hiện tại và cựu nhân viên của Google.
Bất chấp những lo ngại đó, Hassabis vẫn không từ bỏ tham vọng tạo ra Trí tuệ nhân tạo tổng quát (AGI) — một hệ thống có khả năng suy nghĩ và lập luận ở cấp độ con người.
Hassabis thường dành những ngày cuối tuần đi bộ quanh London với nguyên mẫu của Astra, trải nghiệm trước một tương lai mà trong đó:
Nhưng AGI sẽ yêu cầu các hệ thống phải trở nên tốt hơn ở các lĩnh vực:
Vào tháng 1/2025, OpenAI đã tiến một bước gần hơn đến AGI với dịch vụ Operator:
✅ Một AI "chủ động" có thể thực hiện các tác vụ phức tạp như đặt vé máy bay hoặc điền biểu mẫu trực tuyến.
✅ Operator vẫn hoạt động chậm và kém ổn định — nhưng nó là bước đệm rõ ràng hướng tới AGI.
Google tất nhiên đang phát triển tính năng tương tự cho Gemini:
Google đã trở lại vị trí dẫn đầu, nhưng Pichai và các lãnh đạo của Google chắc chắn không muốn bị tụt lại phía sau một lần nữa.
💥 Cuộc đua vẫn tiếp tục.
Xem phần 1
https://songai.vn/posts/ben-trong-cuoc-chay-dua-than-toc-100-ngay-cua-google-sa-thai-nhan-vien-lam-viec-kiet-suc-va-ha-thap-an-toan-de-duoi-kip-openai-p1