- Có hàng triệu công nhân đang tham gia vào quá trình sản xuất các mô hình AI, chủ yếu làm công việc gán nhãn dữ liệu như đánh dấu đối tượng trong hình ảnh đường để huấn luyện xe tự lái hoặc gắn nhãn từ trong bản ghi âm thanh để huấn luyện hệ thống nhận dạng giọng nói.
- Công việc gán nhãn là một ngành kinh doanh lớn, chủ yếu được thuê ngoài ở các khu vực nghèo trên thế giới. Tại Trung Quốc, chính phủ đã hợp tác với các công ty công nghệ như Alibaba và JD.com để đưa công việc gán nhãn đến các vùng xa xôi. Ở Ấn Độ, cơ quan IT Nasscom dự đoán doanh thu từ gán nhãn có thể đạt 7 tỷ USD mỗi năm và tạo việc làm cho 1 triệu người vào năm 2030.
- Ngành gán nhãn dữ liệu bắt nguồn từ giữa những năm 2000 khi Fei Fei Li tạo ra ImageNet, bộ dữ liệu hình ảnh lớn nhất thời điểm đó. Thay vì thuê sinh viên đại học mất 90 năm để phân loại, bà đã thuê công nhân toàn cầu thông qua nền tảng Mechanical Turk của Amazon, hoàn thành 3,2 triệu hình ảnh trong 2 năm rưỡi.
- Công việc gán nhãn cơ bản đang dần biến mất. AI đã phát triển từ "trẻ mới biết đi" cần hướng dẫn liên tục đến "thanh thiếu niên" chỉ cần thỉnh thoảng hướng dẫn chuyên môn. Các phòng thí nghiệm AI ngày càng sử dụng dữ liệu đã được gán nhãn từ các phòng thí nghiệm khác và thuật toán để tự động gán nhãn.
- Vai trò của con người trong AI đang thay đổi. Thay vì gán nhãn cơ bản, nhu cầu hiện nay là những người có kỹ năng cao hơn. Nhiều việc làm về gán nhãn yêu cầu bằng tiến sĩ hoặc kỹ năng lập trình và khoa học. Nhu cầu về người biết nhiều ngôn ngữ ngoài tiếng Anh cũng đang tăng.
- Một vai trò mới nổi là viết nội dung cho việc huấn luyện AI và đánh giá đầu ra từ các mô hình. Công việc này bao gồm việc so sánh các phản hồi của chatbot, đánh giá và viết lại chúng để cải thiện. Phản hồi của con người cũng quan trọng để đảm bảo AI an toàn và có đạo đức.
- Các nhà phát triển AI mong muốn giảm sự phụ thuộc vào con người. Nghiên cứu cho thấy 80% thời gian phát triển AI được dành cho công việc dữ liệu. Có nhiều hứng thú về học không giám sát và học tăng cường, nhưng phương pháp tự học chỉ hiệu quả trong lĩnh vực toán học và khoa học.
- DeepSeek của Trung Quốc đã thử nghiệm huấn luyện AI bằng phản hồi từ máy tính thay vì con người, nhưng mô hình gặp khó khăn trong việc trả lời câu hỏi mở, tạo ra nội dung không có ý nghĩa ở nhiều ngôn ngữ.
- Nhiều chuyên gia công nghệ tin rằng nhiều người hơn sẽ phải tham gia vào việc đào tạo AI, không phải ít hơn. Sự đa dạng trong lực lượng lao động rất quan trọng, như minh họa bởi việc ChatGPT ban đầu sử dụng quá nhiều từ "delve" vì người gán nhãn ở châu Phi thường sử dụng từ này trong tiếng Anh của họ.
📌 Công nghệ AI hiện phụ thuộc vào hàng triệu người lao động ẩn, chủ yếu từ các nước nghèo. Dù công việc gán nhãn cơ bản đang giảm, nhu cầu về người có kỹ năng cao đang tăng. Chuyên gia dự đoán con người sẽ tiếp tục đóng vai trò quan trọng trong đào tạo và giám sát AI.
https://www.economist.com/international/2025/04/10/there-is-a-vast-hidden-workforce-behind-ai
Minh họa: María Jesús Contreras
10/04/2025 | HUBLI
Khi DeepSeek, một công ty Trung Quốc đầy triển vọng, phát hành mô hình ngôn ngữ lớn giá rẻ vào cuối năm ngoái, nó đã đảo ngược những giả định lâu đời về những gì cần thiết để xây dựng thế hệ trí tuệ nhân tạo (AI) tiếp theo. Điều này sẽ ảnh hưởng đến bất kỳ ai giành chiến thắng trong cuộc chiến toàn cầu về thống trị AI. Các nhà phát triển hiện đang xem xét lại cần bao nhiêu phần cứng, năng lượng và dữ liệu. Tuy nhiên, một yếu tố đầu vào khác trong trí tuệ máy móc cũng đang thay đổi: lực lượng lao động.
Đối với người bình thường, AI chỉ là robot, máy móc và mô hình. Đó là công nghệ giết chết việc làm. Trên thực tế, có hàng triệu công nhân tham gia vào việc tạo ra các mô hình AI. Phần lớn công việc của họ liên quan đến các nhiệm vụ như gắn thẻ cho các đối tượng trong hình ảnh đường phố để đào tạo xe tự lái và gắn nhãn từ trong bản ghi âm thanh được sử dụng để đào tạo hệ thống nhận dạng giọng nói. Về mặt kỹ thuật, những người chú thích cung cấp cho dữ liệu thông tin ngữ cảnh mà máy tính cần để tìm ra mối liên hệ thống kê giữa các thành phần của tập dữ liệu và ý nghĩa của chúng đối với con người. Thực tế, bất kỳ ai đã hoàn thành bài kiểm tra CAPTCHA, chọn những bức ảnh có vạch kẻ đường, có thể đã vô tình giúp đào tạo một AI.
Đây là phần "không hấp dẫn" của ngành công nghiệp, như Alex Wang, giám đốc Scale AI, một công ty dữ liệu, nói. Nhưng đó là một ngành kinh doanh rộng lớn. Phần lớn lao động được thuê ngoài đến các khu vực nghèo trên thế giới, nơi có nhiều người có học vấn đang tìm kiếm việc làm. Chính phủ Trung Quốc đã hợp tác với các công ty công nghệ, như Alibaba và JD.com, để mang công việc chú thích đến các vùng xa xôi của đất nước. Tại Ấn Độ, cơ quan đại diện ngành công nghệ thông tin, Nasscom, ước tính doanh thu từ công việc chú thích có thể đạt 7 tỷ đô la mỗi năm và tạo việc làm cho 1 triệu người ở đó vào năm 2030. Đó là con số đáng kể, vì toàn bộ ngành công nghệ thông tin của Ấn Độ trị giá 254 tỷ đô la mỗi năm (bao gồm cả phần cứng) và tạo việc làm cho 5,5 triệu người.
Những người chú thích từ lâu đã được so sánh với cha mẹ, dạy dỗ các mô hình và giúp chúng hiểu thế giới. Nhưng các mô hình mới nhất không cần sự hướng dẫn của họ theo cùng một cách. Khi công nghệ trưởng thành, liệu những người thầy của nó có đang trở nên thừa thãi?
Chú thích dữ liệu không phải là mới. Fei Fei Li, một nhà khoa học máy tính người Mỹ được biết đến như "người đỡ đầu của AI", được ghi nhận đã khởi động ngành công nghiệp này vào giữa những năm 2000 khi bà tạo ra ImageNet, tập dữ liệu hình ảnh lớn nhất vào thời điểm đó. Bà Li nhận ra rằng nếu bà trả tiền cho sinh viên đại học phân loại hình ảnh, điều mà lúc đó hầu hết các nhà nghiên cứu đều làm, nhiệm vụ sẽ mất 90 năm. Thay vào đó, bà thuê công nhân khắp thế giới sử dụng Mechanical Turk, một nền tảng công việc trực tuyến do Amazon điều hành. Bà đã tổ chức được khoảng 3,2 triệu hình ảnh thành một tập dữ liệu trong hai năm rưỡi. Chẳng bao lâu sau, các phòng thí nghiệm AI khác cũng thuê ngoài công việc chú thích theo cách này.
Theo thời gian, các nhà phát triển cảm thấy chán nản với việc chú thích chất lượng thấp được thực hiện bởi công nhân không được đào tạo trên các trang web công việc tự do. Các công ty dữ liệu AI, như Sama và iMerit, đã xuất hiện. Họ thuê công nhân trên khắp thế giới nghèo. Công việc chú thích không chính thức vẫn tiếp tục nhưng các nền tảng chuyên biệt đã xuất hiện cho công việc AI, như những nền tảng do Scale AI vận hành, kiểm tra và đào tạo công nhân. Ngân hàng Thế giới ước tính rằng từ 4,4% đến 12,4% lực lượng lao động toàn cầu tham gia vào công việc tự do, bao gồm cả việc chú thích cho AI. Krystal Kauffman, một cư dân Michigan đã làm công việc dữ liệu trực tuyến trong một thập kỷ, cho rằng các công ty công nghệ có lợi ích trong việc giữ lực lượng lao động này ẩn giấu. "Họ đang bán ma thuật—ý tưởng rằng tất cả những điều này xảy ra một cách tự động," bà Kauffman nói. "Nếu không có phần ma thuật đó, AI chỉ là một sản phẩm khác."
Biểu đồ: The Economist
Một cuộc tranh luận trong ngành là về cách đối xử với người lao động đằng sau AI. Các công ty miễn cưỡng chia sẻ thông tin về tiền lương. Nhưng những người chú thích người Mỹ thường coi 10-20 đô la mỗi giờ là mức lương tốt trên các nền tảng trực tuyến. Những người ở các nước nghèo thường nhận được 4-8 đô la mỗi giờ. Nhiều người phải sử dụng các công cụ giám sát theo dõi hoạt động máy tính của họ và bị phạt vì làm việc chậm. Scale AI đã bị kiện nhiều lần về thực tiễn tuyển dụng của mình. Công ty phủ nhận hành vi sai trái và nói: "Chúng tôi dự định bảo vệ mình một cách mạnh mẽ."
Tuy nhiên, vấn đề lớn hơn là công việc chú thích cơ bản đang khô cạn. Một phần, điều này là không thể tránh khỏi. Nếu AI từng là một đứa trẻ mới biết đi cần cha mẹ chỉ ra mọi thứ và giúp nó hiểu thế giới xung quanh, thì công nghệ đã phát triển thành một thanh thiếu niên chỉ cần sự hướng dẫn và lời khuyên chuyên môn thỉnh thoảng. Các phòng thí nghiệm AI ngày càng sử dụng dữ liệu đã được gắn nhãn từ các phòng thí nghiệm AI khác, sử dụng thuật toán để áp dụng nhãn cho các tập dữ liệu.
Lấy ví dụ về máy kéo tự lái được phát triển bởi Blue River Technology, một công ty con của John Deere, một gã khổng lồ về thiết bị nông nghiệp. Ba năm trước, các kỹ sư của tập đoàn ở Mỹ tải lên các bức ảnh về đất nông nghiệp lên đám mây và cung cấp cho nhân viên iMerit ở Hubli, Ấn Độ, hướng dẫn cẩn thận về những gì cần gắn nhãn: máy kéo, tòa nhà, thiết bị tưới tiêu. Hiện nay, các nhà phát triển sử dụng dữ liệu đã được gắn nhãn trước. Họ vẫn cần nhân viên iMerit kiểm tra nhãn đó và xử lý các "trường hợp đặc biệt", ví dụ như khi một đám bụi che khuất một phần cảnh quan hoặc một cây ném bóng lên cây trồng, làm mô hình bối rối. Một quá trình mất nhiều tháng giờ đây chỉ mất vài tuần.
Làn sóng mô hình AI gần đây nhất đã thay đổi công việc dữ liệu một cách đáng kể hơn. Kể từ năm 2022, khi OpenAI lần đầu tiên cho phép công chúng chơi với chatbot ChatGPT của mình, đã có sự quan tâm đột biến đến các mô hình ngôn ngữ lớn. Dữ liệu từ Pitchbook, một công ty nghiên cứu, cho thấy rằng nguồn vốn đầu tư mạo hiểm toàn cầu cho các công ty khởi nghiệp AI đã tăng hơn 50% vào năm 2024 lên 131,5 tỷ đô la, ngay cả khi nguồn vốn cho các công ty khởi nghiệp khác giảm. Phần lớn số tiền này đang đi vào các kỹ thuật mới hơn để phát triển AI, không cần dữ liệu được chú thích theo cùng một cách. Iva Gumnishka tại Humans in the Loop, một doanh nghiệp xã hội, nói rằng các công ty làm công việc chú thích kỹ năng thấp cho khách hàng xử lý thị giác máy tính và xử lý ngôn ngữ tự nhiên cũ hơn đang bị "bỏ lại phía sau".
Vẫn có nhu cầu về người chú thích, nhưng công việc của họ đã thay đổi. Khi các doanh nghiệp bắt đầu triển khai AI, họ đang xây dựng các mô hình chuyên biệt nhỏ hơn và tìm kiếm những người chú thích có học vấn cao để giúp đỡ. Nó đã trở nên khá phổ biến cho các quảng cáo công việc chú thích yêu cầu bằng tiến sĩ hoặc kỹ năng lập trình và khoa học. Bây giờ các nhà nghiên cứu đang cố gắng làm cho AI đa ngôn ngữ hơn, nhu cầu về người chú thích nói các ngôn ngữ khác ngoài tiếng Anh cũng đang tăng lên. Sushovan Das, một nha sĩ làm việc về các dự án AI y tế tại iMerit, cho rằng công việc chú thích sẽ không bao giờ biến mất. "Thế giới này liên tục phát triển," ông nói. "Vì vậy AI cần được cải thiện nhiều lần."
Các vai trò mới cho con người trong việc đào tạo AI đang xuất hiện. Epoch AI, một công ty nghiên cứu, ước tính rằng nguồn văn bản chất lượng cao có sẵn để đào tạo có thể sẽ cạn kiệt vào năm 2026. Một số phòng thí nghiệm AI đang thuê người viết các đoạn văn bản và dòng mã mà các mô hình có thể được đào tạo. Những người khác đang mua dữ liệu tổng hợp, được tạo ra bằng thuật toán máy tính, và thuê con người xác minh nó. "Dữ liệu tổng hợp vẫn cần phải là dữ liệu tốt," Wendy Gonzalez, giám đốc của Sama, có hoạt động ở Đông Phi, nói.
Vai trò khác cho người lao động là đánh giá đầu ra từ các mô hình và giúp định hình nó. Đó là điều đã giúp ChatGPT hoạt động tốt hơn các chatbot trước đó. Xiaote Zhu tại Scale AI cung cấp một ví dụ về loại nhiệm vụ mở đang được thực hiện trên nền tảng Outlier của công ty, được ra mắt vào năm 2023 để tạo điều kiện cho việc đào tạo AI bởi các chuyên gia. Người lao động được trình bày với hai phản hồi từ một chatbot đề xuất lịch trình cho kỳ nghỉ ở Maldives. Họ cần chọn phản hồi nào họ thích hơn, đánh giá nó, giải thích tại sao câu trả lời là tốt hay xấu và sau đó viết lại phản hồi để cải thiện nó.
Ví dụ của bà Zhu khá nhạt nhẽo. Tuy nhiên, phản hồi của con người cũng rất quan trọng để đảm bảo AI an toàn và đạo đức. Trong một tài liệu được công bố sau khi ra mắt ChatGPT vào năm 2022, OpenAI cho biết họ đã thuê các chuyên gia để "thăm dò định tính, kiểm tra đối nghịch và nói chung cung cấp phản hồi" về các mô hình của họ. Vào cuối quá trình đó, mô hình từ chối phản hồi một số lời nhắc nhất định, chẳng hạn như yêu cầu viết nội dung mạng xã hội nhằm thuyết phục mọi người tham gia al-Qaeda, một nhóm khủng bố.
Nếu các nhà phát triển AI có cách của mình, họ sẽ không cần loại đầu vào của con người này. Các nghiên cứu cho thấy rằng có đến 80% thời gian dành cho phát triển AI được dành cho công việc dữ liệu. Naveen Rao tại Databricks, một công ty AI, nói rằng ông muốn các mô hình tự dạy mình, giống như ông muốn con cái mình làm vậy. "Tôi muốn xây dựng con người tự lực," ông nói. "Tôi muốn họ có sự tò mò riêng và tìm ra cách giải quyết vấn đề. Tôi không muốn xúc từng thìa cho họ từng bước."
Có nhiều sự phấn khích về học tập không giám sát, liên quan đến việc cung cấp dữ liệu không nhãn cho các mô hình, và học tập củng cố, sử dụng thử nghiệm để cải thiện việc ra quyết định. Các công ty AI, bao gồm Google DeepMind, đã đào tạo máy móc để chiến thắng trong các trò chơi như Go và cờ vua bằng cách chơi hàng triệu trận đấu với chính mình và theo dõi chiến lược nào hiệu quả, mà không cần bất kỳ đầu vào nào của con người. Nhưng cách tiếp cận tự học đó không hoạt động ngoài phạm vi toán học và khoa học, ít nhất là vào thời điểm hiện tại.
Những người yêu thích công nghệ khắp nơi đã bị choáng ngợp bởi mô hình của DeepSeek rẻ và hiệu quả như thế nào. Nhưng họ ít ấn tượng hơn với nỗ lực của DeepSeek trong việc đào tạo AI bằng cách sử dụng phản hồi được tạo ra bởi máy tính thay vì con người. Mô hình gặp khó khăn trong việc trả lời các câu hỏi mở, tạo ra câu từ vô nghĩa bằng nhiều ngôn ngữ khác nhau. "Sự khác biệt là với Go và cờ vua, kết quả mong muốn rất rõ ràng: chiến thắng trò chơi," Phelim Bradley, đồng sáng lập của Prolific, một công ty dữ liệu AI khác, nói. "Các mô hình ngôn ngữ lớn phức tạp và sâu rộng hơn, vì vậy con người sẽ vẫn tham gia trong một thời gian dài."
Ông Bradley, giống như nhiều người trong ngành công nghệ, cho rằng nhiều người hơn sẽ cần tham gia vào việc đào tạo AI, không phải ít hơn. Sự đa dạng trong lực lượng lao động rất quan trọng. Khi ChatGPT được phát hành vài năm trước, mọi người nhận thấy rằng nó sử dụng quá nhiều từ "delve" (đào sâu). Từ này được coi là "AI-ese", một dấu hiệu rõ ràng rằng văn bản được viết bởi một bot. Trên thực tế, những người chú thích ở châu Phi đã được thuê để đào tạo mô hình và từ "delve" được sử dụng phổ biến hơn trong tiếng Anh của châu Phi so với tiếng Anh của Mỹ hoặc Anh. Cũng giống như kỹ năng và kiến thức của người lao động được chuyển giao cho các mô hình, từ vựng của họ cũng vậy. Hóa ra, cần nhiều hơn một làng để nuôi dạy một đứa trẻ.